欢迎光临散文网 会员登陆 & 注册

都2022年了你还不知道多模态在研究什么?

2022-02-28 18:28 作者:深度之眼官方账号  | 我要投稿

来源:投稿 作者:宋岳庭

编辑:学姐

标题看起来是不是很嚣张?其实大部分人也是知道多模态,但是你真的很了解嘛?也不一定吧?今天给你一五一十的说明白!认真看~觉得好了给个赞!





什么是多模态?


多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。


顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。



目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。


这就涉及到图像和文本领域的内容。



多模态的任务和数据集有哪些?


多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。



例如给定一张图片,可以完成以下任务:


一、VQA(Visual Question Answering)视觉问答


输入:一张图片、一个自然语言描述的问题

输出:答案(单词或短语)


二、Image Caption 图像字幕


输入:一张图片

输出:图片的自然语言描述(一个句子)


三、Referring Expression Comprehension 指代表达


输入:一张图片、一个自然语言描述的句子

输出:判断句子描述的内容(正确或错误)


四、Visual Dialogue 视觉对话


输入:一张图片

输出:两个角色进行多次交互、对话


五、VCR (Visual Commonsense Reasoning) 视觉常识推理


输入:1个问题,4个备选答案,4个理由

输出:正确答案,和理由



六、NLVR(Natural Language for Visual Reasoning)自然语言视觉推理


输入:2张图片,一个分布

输出:true或false



七、Visual Entailment 视觉蕴含


输入:图像、文本

输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾



八、Image-Text Retrieval 图文检索


有3种方式。

1)以图搜文。输入图片,输出文本

2)以文搜图。输入文本,输出图片

3)以图搜图,输入图片,输出图片





多种模态融合的方式有哪些?


通过NLP的预训练模型,可以得到文本的嵌入表示;

再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;


那么,如何将两者融合起来,来完成以上的各种任务呢?

常用的多模态交叉的方式有两种。


【1】点乘或者直接追加。


此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。


好处是简单方便,计算成本也比较低。



【2】另外一种模态交叉的方式是最近用得比较多的Transformer。


其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。


缺点是占用空间大,计算成本较高。



参考:

https://lil.nlp.cornell.edu/nlvr/

http://arxiv.org/abs/1909.11740

https://arxiv.org/abs/2103.06561v6

http://arxiv.org/abs/2103.00020

http://arxiv.org/abs/2201.12086

http://arxiv.org/abs/2102.05918


深入了解多模态找不到人指导?

来找明镜小享,带你开启多模态研究!



都2022年了你还不知道多模态在研究什么?的评论 (共 条)

分享到微博请遵守国家法律