LLaVA-1.5升级:只需训练一天的多模态加持的大模型11个基准上达到SOTA
1. 总结

LLaVA-1.5 在多个方面进行了优化和改进,包括改进 Vision-Language 连接器、探讨不同方面的缩放影响、改进模型的回答格式、增加多层感知机(MLP)视觉-语言连接器、添加特定任务的数据集等。
这些优化使得LLaVA-1.5 在12个任务中的11个上达到了最新的技术水平(State of the Art,SoTA),即便其预训练和指令调优的数据相对较少。
论文:https://readpaper.com/paper/1992345918000441600
Arxiv:https://arxiv.org/abs/2310.03744
项目主页:https://llava-vl.github.io/
Github:https://github.com/haotian-liu/LLaVA
Demo:https://llava.hliu.cc/

2. 详细介绍
2.1 LLaVA 模型简介
LLaVA (Large Language-and-Vision Assistant) 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型(Vicuna v1.5 13B)组成。它通过端到端的训练,实现了在视觉推理能力方面的高性能。

2.2 LLaVA 的挑战
尽管 LLaVA 在视觉推理能力方面展现了卓越的性能,但在一些学术基准测试中,特别是那些需要短格式回答的测试中,其表现相对较低。这一挑战主要源于 LLaVA 没有在大规模数据上进行预训练。具体来说,LLaVA 使用 GPT-4 自动生成的 image-text 对话数据进行训练,而没有利用更大规模的数据进行事前学习。
2.3 LLaVA 的改进
明确指定输出格式的提示:为了解决短文本 VQA (Visual Question Answering) 和长文本 VQA 之间的兼容问题,研究者在短文本回答中明确指定了输出格式的提示。例如,通过在问题文本的末尾添加特定的短语,如“Q: {问题} A: {答案}。”,模型能够基于用户的指示适当地调整输出格式。

使用 MLP 作为视觉-语言连接器:受到自监督学习性能提升的启发,研究者使用了两层 MLP 作为视觉-语言连接器,以增强连接器的表达能力。这一改进相较于原始的线性投影架构,显著提升了 LLaVA 的多模态能力。
添加特定任务的数据集:为了强化模型在不同能力上的表现,研究者不仅添加了 VQA 数据集,还专注于 OCR 和区域级别识别的四个数据集。这些数据集包括需要广泛知识的 VQA(如 OKVQA 和 A-OKVQA)、需要 OCR 的 VQA(如 OCRVQA 和 TextCaps)等。
2.4 结果
结果显示,架构更加简单的LLaVA-1.5只需要120万公开数据,即可超越用了14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFace IDEFICS。其中,13B模型的训练,只需要8个A100就可以在1天内完成。

2.5 和GPT-4V的对比

3. 观点
在学术上扩展了多模态AI的边界,其他模态可以增强文本这个模态的表现。而且其实我觉得,这应该的相互增强的。
在商业上,可能会推动创建更加智能和互动的AI助手和聊天机器人。例如,在客户服务、在线购物助手和虚拟导购等领域,LLaVA可以通过理解用户的视觉和语言查询来提供更精确和个性化的服务。
不过,LLaVA-1.5 仍然面临一些挑战,例如计算成本、处理多图像的能力、复杂指令的执行能力等。
特邀作者:早稻田大学计算机系在读博士 王军杰

