阿里巴巴提出mPLUG-Owl2:新的多模态全能模型
mPLUG-Owl2是一个创新的多模态大型语言模型(MLLM),专注于通过模块化设计和模态适应模块来增强模态协作并减少模态干扰。在多模态任务中,尤其是在图像描述和视频理解方面,mPLUG-Owl2展现出了卓越的性能,例如在MMHal-Bench测试中,相比其他模型,mPLUG-Owl2在减少幻觉方面表现更为出色,尤其是在属性和计数类别中。这些结果不仅在学术上验证了模态协作对提升文本任务性能的重要性,如理解、知识和推理,也预示了mPLUG-Owl2在多模态基础模型发展中的重要潜力。
而且,是开源的,模型权重是可以直接在github里面找到的。
一个新的多模态全能战士:

Readpaper链接:https://readpaper.com/paper/4820196473576620033
github链接:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
Demo链接:https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
详细介绍
共享功能模块
mPLUG-Owl2的核心是其模块化设计,它通过共享功能模块促进不同模态之间的协作。这种设计允许模型在处理多种类型的输入数据时,如图像、文本和声音,能够更好地整合和理解跨模态信息。
模态适应模块
这里的nrom和W的映射层,针对视觉和文本的模态都做了单独的处理。,其他的就和别模型的一样了。
● 交互与特异性保留: mPLUG-Owl2的模态适应模块允许模型在保持每种模态特有特征的同时,实现不同模态之间的有效交互。这意味着模型能够处理更复杂的任务,如图像中的对象识别与描述,同时理解相关的文本信息。
● 信息密度平衡: 该模型处理了不同模态间信息密度不均的问题,例如,图像通常包含大量的非结构化数据,而文本则是高度结构化的。模态适应模块帮助模型在这些不同的信息密度之间找到平衡。

从下图的消融实验也可以看出,没有模态适应模块的时候,attention在视觉和文本的分布是不均匀的,这也直接体现了小改进带来的性能大提升。

任务多样性: mPLUG-Owl2在多种多模态任务中表现出色,这些任务可能包括图像标注、视频内容理解和跨模态翻译等。
性能提升: 特别是在需要深层次理解和推理的任务上,如视频问答和图像-文本匹配,mPLUG-Owl2展现了其优越的性能,这表明了模态协作在提升整体模型性能方面的关键作用。

观点
学术上,这样的思路也可以拓展到更多模态,比如音频等。而且只需要一个强大LLM作为基础模型就可以了。
商业上,也可以尝试一下可不可以使用类似的结构复现出GPT-4V类似的效果。
特邀作者:日本早稻田大学计算机系博士 王军杰