深度学习多模态情感识别13
2023-03-01 14:52 作者:bili_1534047163 | 我要投稿
NIMO
目的:之眼集成单模态和多模态结果的预训练模型,在多模态任务上表现不错,在单模态任务上,效果也不会下降太多;
数据增强:通过text rewriting,text/image retrieval 增强正负样本。
UNITER
目的:构建一个统一的图文学习框架,适用于各种图文任务;
分别对图文做embedding,经过Layer Normalization进入transformer;
提出conditional masking和OT-based WRA预训练任务。