欢迎光临散文网会员登陆 & 注册

深度学习01 多模态-baseline

2023-03-01 11:30 作者:勾心斗角167 0人读过 | 我要投稿

模型概况

ALBEF

双流模型；
在预训练和下游任务时，使用momentum distillation，缓解图文数据集中的噪声问题；
从Mutual Information的视角看图文对信息对齐。

CLIP

双流模型，文本和视觉分别进入transformer encoder，经过线性投影计算不同图文对的相似度；
使用对比学习，将图片分类转换成图文匹配任务。

UniT：文本和视觉分别encoder，concat之后进入transformer decoder，根据head进行不同任务的训练。

Vx2TEXT

基于backbone network提取模态特征，经过分类器，使用Gumbel-softmax 采样得到k个类别，和文本一样，映射到统一的语言空间；
端对端的文本生成模型。

标签：

深度学习01 多模态-baseline的评论 (共条)