LLaVA-1.5升级：只需训练一天的多模态加持的大模型11个基准上达到SOTA

2023-10-08 17:24 作者:ReadPaper论文阅读 0人读过 | 我要投稿

1. 总结

LLaVA-1.5 在多个方面进行了优化和改进，包括改进 Vision-Language 连接器、探讨不同方面的缩放影响、改进模型的回答格式、增加多层感知机（MLP）视觉-语言连接器、添加特定任务的数据集等。

这些优化使得LLaVA-1.5 在12个任务中的11个上达到了最新的技术水平（State of the Art，SoTA），即便其预训练和指令调优的数据相对较少。

论文：https://readpaper.com/paper/1992345918000441600

Arxiv：https://arxiv.org/abs/2310.03744

项目主页：https://llava-vl.github.io/

Github：https://github.com/haotian-liu/LLaVA

Demo：https://llava.hliu.cc/

2. 详细介绍

2.1 LLaVA 模型简介

LLaVA (Large Language-and-Vision Assistant) 是一个能够进行视觉和语言多模态转换的模型，由视觉编码器和大型语言模型（Vicuna v1.5 13B）组成。它通过端到端的训练，实现了在视觉推理能力方面的高性能。

2.2 LLaVA 的挑战

尽管 LLaVA 在视觉推理能力方面展现了卓越的性能，但在一些学术基准测试中，特别是那些需要短格式回答的测试中，其表现相对较低。这一挑战主要源于 LLaVA 没有在大规模数据上进行预训练。具体来说，LLaVA 使用 GPT-4 自动生成的 image-text 对话数据进行训练，而没有利用更大规模的数据进行事前学习。

2.3 LLaVA 的改进

明确指定输出格式的提示：为了解决短文本 VQA (Visual Question Answering) 和长文本 VQA 之间的兼容问题，研究者在短文本回答中明确指定了输出格式的提示。例如，通过在问题文本的末尾添加特定的短语，如“Q: {问题} A: {答案}。”，模型能够基于用户的指示适当地调整输出格式。

使用 MLP 作为视觉-语言连接器：受到自监督学习性能提升的启发，研究者使用了两层 MLP 作为视觉-语言连接器，以增强连接器的表达能力。这一改进相较于原始的线性投影架构，显著提升了 LLaVA 的多模态能力。

添加特定任务的数据集：为了强化模型在不同能力上的表现，研究者不仅添加了 VQA 数据集，还专注于 OCR 和区域级别识别的四个数据集。这些数据集包括需要广泛知识的 VQA（如 OKVQA 和 A-OKVQA）、需要 OCR 的 VQA（如 OCRVQA 和 TextCaps）等。

2.4 结果

结果显示，架构更加简单的LLaVA-1.5只需要120万公开数据，即可超越用了14.5亿训练数据的Qwen-VL和1.3亿数据的HuggingFace IDEFICS。其中，13B模型的训练，只需要8个A100就可以在1天内完成。

2.5 和GPT-4V的对比

3. 观点

在学术上扩展了多模态AI的边界，其他模态可以增强文本这个模态的表现。而且其实我觉得，这应该的相互增强的。

在商业上，可能会推动创建更加智能和互动的AI助手和聊天机器人。例如，在客户服务、在线购物助手和虚拟导购等领域，LLaVA可以通过理解用户的视觉和语言查询来提供更精确和个性化的服务。

不过，LLaVA-1.5 仍然面临一些挑战，例如计算成本、处理多图像的能力、复杂指令的执行能力等。

特邀作者：早稻田大学计算机系在读博士王军杰

标签：

LLaVA-1.5升级：只需训练一天的多模态加持的大模型11个基准上达到SOTA

1. 总结

2. 详细介绍

3. 观点