多模态论文串讲·上【论文精读·46】

VLMO: Unified Vision-Language Pre-Training with mixture-of-modality-experts:
动机及贡献:
(1)模型结构的改进
类似于CLIP的Dual-encoder可以提取图像和文本特征存储起来,然后跟测试数据计算余弦相似度,比较容易做检索的任务。但是在一些比较复杂的任务上效果不好,如VR。Fusion encoder的结构是先把图像和文本分别处理,再用transformer encoder做模态交互,在VR、VE、VQA效果比较好。但当去做检索任务且图像-文本对特别大时,只有一个模型要把所有的对同时去编码推理,然后计算相似度,才能完成检索,这样推理时间就会很慢。
提出了一个统一的框架,灵活选择使用Dual-encoder还是Fusion encoder。即Mixture-of-Modality-Experts。思想是:所有模态share self-attention权重,但是feed-forward层每个模态对应自己不同的expert。达到根据输入的模态数据,选择使用哪个模型结构。
(2)训练方式的改进
目前没有大规模的多模态数据集,但是有大量的单模态数据集,不管是视觉还是文本。
提出Stagewise pre-training strategy,即分阶段的模型预训练。具体做法是vision expert在视觉数据集上先预训练好,然后text expert在文本数据集上先预训练好。这样vision expert和text expert模型都实现了很好的初始化,然后再在多模态的数据集上做pre-training。
具体细节
Ø 模型结构-- Mixture-of-modality-experts
特点:不同的模态有各自的FFN。

Ø 训练方式---Stagewise pre-training strategy

预训练V-FFN时,利用BEIT 进行Mask image model的Unsupervised task。在预训练L-FFN时,进行Mask language model任务,frozen V-FFN和Multi-Head Self-attention,都不需要fine-tune Multi-Head Self-attention,效果就很好,但先language训练再在vision上frozen,结果好像差一些。VL-FFN预训练时,打开所有参数fine-tune,损失函数与ALBEF一样,也是ITC,ITM,MLM。
多模态学习搭配transformer是一个很好的组合。Transformer的self-attention用了最少的inductive bias,不挑输入,同样的self-attention weights,可以用来做不同的任务,例如图像,文本音频视频等输入,不需要重新去训练这些参数。