【74th】(lab成果推荐)NHFNet-用于⚡️多模态情感分析⚡️的⚡️非同

多模态情感分析
多模态情感分析研究主要集中在单模态表征学习和多模态融合两个方面

1.空间差异难以代表特定模式的差异,直观的,不同的模态具有不同的语义信息。文本是人类产生的信号,具有高度的语义和信息密集性。相反,视觉和音频是具有大量空间冗余的自然信号,包含了低阶的语义和单元特征。
2.他们需要手动平衡全局损失函数中的约束部分的权重,这很大程度上依赖于人类的经验

现存的融合方法包括但不限于基于简单操作的,基于注意力的,基于张量的,基于翻译的,基于GAN的,基于图的和基于路由的方法等,尽管学习模态融合的方法各种各样,但基于注意力融合的方法仍然在效率和性能方面具有优势
音频和视觉的输入包含了密集的、细粒度的信息,其中大部分是冗余的,在音频和视觉两种模态融合过程中,成对的跨模态Transformer与多模态序列长度呈二次复杂性,这种操作是低效的。




