欢迎光临散文网 会员登陆 & 注册

深度学习01 多模态-baseline

2023-03-01 11:30 作者:勾心斗角167  | 我要投稿

模型概况

ALBEF

  1. 双流模型;

  2. 在预训练和下游任务时,使用momentum distillation,缓解图文数据集中的噪声问题;

  3. 从Mutual Information的视角看图文对信息对齐。

CLIP

  1. 双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;

  2. 使用对比学习,将图片分类转换成图文匹配任务。

UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。

Vx2TEXT

  1. 基于backbone network提取模态特征,经过分类器,使用Gumbel-softmax 采样得到k个类别,和文本一样,映射到统一的语言空间;

  2. 端对端的文本生成模型。


深度学习01 多模态-baseline的评论 (共 条)

分享到微博请遵守国家法律