WBDC_2022_RANK8

2022微信大数据挑战赛第8名方案

官网链接 : link

环境配置

Python 版本：3.8
PyTorch 版本：1.9.0
CUDA 版本：11.1

所需环境在 requirements.txt 中定义。

(1) 单流模型: visual-bert 郭大分享链接

(2) 双流模型：lxmert

(1) Mask language model 任务

(2) Mask frame model 任务

(3) frame text match 任务

(4) frame text clip 任务

参考郭大QQ浏览的 Inverse Cloze Task 的做法，link
具体实现：
- title 单独输入bert 得到 title_embedding
- frame ocr asr 拼接后输入 bert 得到 frame_ocr_asr_embedding
- 构建 title_embedding 和 frame_ocr_asr_embedding 对比loss

(5) mask modality clip 任务

针对模态缺失的问题：设计 mask 掉全部 frame 或全部 text 的任务
参考论文： VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding link

(1) video text clip 任务

参照论文：ActionCLIP: A New Paradigm for Video Action Recognition link
具体实现
- 使用 clip-vit-base 提取每个视频4帧的图像特征后 mean pooling 代表 video_embedding
- 使用 bert 提取 tilte 的特征代表 title_embedding
- video_embedding 和 title_embedding 做 clip loss

模型 id	模型结构	bert 初始化权重	vit 初始化权重	trick	F1-mean
model-1	单流	单流预训练 epoch 15	clip-vit-base-32	ema fgm	71.4 (单折) 72.2 (全量)
model-2	单流	单流预训练 epoch 15	clip 预训练 epoch 15	ema fgm	71.7(单折) 72.1(全量)
model-3	双流	macbert-base	clip-vit-base-32	ema fgm	71(单折)
model-4	单流	单流预训练 epoch 15	clip-vit-base-32	ema pgd	-

4个模型 ensemble 复赛 F1-mean：0.731633