CLIP
双流模型,文本和视觉分别进入transformer encoder,经过线性投影计算不同图文对的相似度;
使用对比学习,将图片分类转换成图文匹配任务。
UniT:文本和视觉分别encoder,concat之后进入transformer decoder,根据head进行不同任务的训练。