UNIMO
目的:集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;
数据增强:通过text rewriting,text/image retrieval 增强正负样本。
UNITER
目的:构建一个统一的图文学习框架,适用于各种图文任务;
分别对图文做embedding,经过Layer Normalization进入transformer;