Transformer一作开源多模态Fuyu-8B,读数据图表都可以
今年,不少公司宣称自己可以做多模态,xx大模型支持多模态!如此这般说道。但是,本质上都是把现有的公开的模型做了一些整合罢了。都没有从本质的角度去思考多模态可以做什么,要做什么?直到今年的nougat出来之后,大家发现,多模态最重要的还是在文件解析领域。大家终于找到了多模态的落脚点和一些可行的方法。
但愿什么时候,某些头部公司可以踏实思考如何帮助消费者,或者是人道主义的角度出发去做事情,而不是想着怎么增长财报,那些头部公司才有可能真的领先世界。
1. 总结
Transformer一作Ashish Vaswani所在的AI公司Adept,发布了Fuyu-8B,这是一个多模态模型的小版本,为其产品赋能。Fuyu-8B的特点包括:具有比其他多模态模型更简单的架构和训练程序;从头开始为数字助手设计,支持任意图像分辨率,能够回答关于图表和图形的问题,并在屏幕图像上进行精细的定位;响应速度快,对于大图像的响应时间不到100毫秒;尽管针对特定用例进行了优化,但在标准的图像理解基准测试中表现良好。
2. 详细介绍
模型架构:Adept致力于为知识工作者构建一个普遍智能的助手。为了实现这一目标,模型需要能够理解用户的上下文并代表用户采取行动。Fuyu的架构是一个普通的Decoder-only变压器,没有图像编码器。图像块直接线性投影到变压器的第一层,绕过嵌入查找。

性能评估:为了检查Fuyu-8B的架构变化,选择了四个最常用的图像理解数据集进行评估。Fuyu模型在这些指标上表现良好,不过这些数据集主要关注自然图像,和我们实际场景有所不同。

功能:Fuyu模型具有多种酷炫的功能,包括图表、图形和文档理解。它可以理解复杂的视觉关系,回答传统图表中的非平凡、多跳问题,理解文档和复杂的关系查询。
图表理解 (Chart Understanding)
Fuyu-8B模型对图表和图形的理解能力尤为出色,这对于帮助知识工作者尤为重要。
复杂视觉关系理解:例如,模型可以追踪图表中演员和节目之间的连接并进行计数。

传统图表的多跳问题回答:例如,模型可以回答诸如“查找序列24,_,32,33,42的缺失数据?”这样的问题。

Fuyu-8B模型还能够理解各种文档,无论是复杂的信息图还是旧的PDF文件。
复杂信息图理解:例如,当问及“哪个加利福尼亚的地铁有良好的工作前景?”时,模型的答案是“洛杉矶”。
旧PDF文件理解:例如,当询问“包装纺锤的容量是多少?”时,模型的答案是“118包”。

此外,Fuyu-8B模型还可以理解关于科学图表的复杂关系查询。
关系查询:例如,当问及“一个龙骨状的横截面看起来像什么字母?”时,模型的答案是“字母V”。

基于Fuyu的内部模型具有与产品相关的额外功能。
高分辨率图像的OCR能力:模型可以在高分辨率图像上可靠地执行OCR。

文本和UI元素的细粒度定位:模型可以在这些图像内部进行细粒度的定位。

关于UI图像的问题回答:例如,模型可以与Google Maps互动,正确回答问题。

3. 观点
从学术角度看,它展示了如何通过简化架构来实现高效的多模态模型,这可能会激发更多的研究者探索这一领域。
从商业角度看,Fuyu-8B的快速响应和多功能性使其成为数字助手和其他AI应用的理想选择。其简化的架构和训练程序不仅降低了部署和扩展的难度,而且还提高了模型的可解释性和透明度。之后应该不少大模型公司也会跟进吧。
特邀作者:日本早稻田大学计算机系博士 王军杰