解决视觉语言的联合训练问题
把Bert预训练方法用到视觉语言表征学习里面
可放到下游任务里面,看到一系列的改进
多模态表征,关心把多模态的数据,多模态的一些单词也好,图像里面的一个物体的一个区域也好,投影到公共空间
核心是如何学习视觉和语言对齐表示
三元组表示
实验结果
单词区域对齐重点
重点参考文献
大力出奇迹,更好表示
增加数据量增加算力
找数据联系