深度学习01 多模态-baseline
模型概况
ALBEF
双流模型;
在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;
从Mutual Information的视角看图文对信息对齐。
CLIP
双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;
使用对比学习,将图片分类转换成图文匹配任务。
UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。
Vx2TEXT
基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;
端对端的文本生成模型。