谷歌PaLM-E(具身化的多模态大语言模型)
2023年3月6日,谷歌和柏林工业大学共同发表论文,对其已开发的PaLM-E多模态大模型的训练方法、训练环境及通用化效果进行了详细阐述。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据,PaLM-E模型不仅具备通用化语言能力,还能执行视觉问答、感知推理、机器操作等复杂的任务,谷歌在AI多模态大模型的训练方法上的探索已经初见成效。 谷歌在2022年提出的PaLM模型,拥有的5620亿参数的PaLM-E大模型是在语言类模型PaLM(5400亿参数;GPT3为1750亿参数)和视觉类模型ViT(220亿参数)的基础上开发的。在PaLM模型基础上,引入了具身化和多模态概念,实现了指导现实世界机器人完成相应任务的功能。PaLM-E的字面理解,是以PaLM作为预训练的语言模型,并使其具身化(Embodied)。 其中,机器学习中的具身化是指一种涉及到物理实体(如机器人)的机器学习方法,它可以使人工智能通过感知、行动和交互来学习和推理。具身化的机器学习方法可以处理多模态的数据,如语言、视觉和触觉,并且可以适应不同的环境和任务。 PaLM-E参与到机器人的控制循环中
PaLM-E的主要架构思想是,将连续的、具体的多模态观察(如图像、状态估计或其他传感器模态),转化为和语言token嵌入空间维数相同的向量序列,用和语言token同样的方式注入预训练语言模型的语言嵌入空间(embeddingspace),使得LLM能够以处理文本的方式处理多模态信息,从而建立文字和感知之间的联系,解决机器人相关的具身问题。 PaLM-E是一个仅基于解码器(decoder)的自回归的生成类LLM,在给定前缀(prefix)或提示(prompt)的情况下,能够自回归地生成文本补全。PaLM-E输入为多模态,输出为纯文本。PaLM-E的输入是多模态句,由文本和连续观察组成,与观察相对应的多模态token可以包括图像(image)、神经3D表示(neural3Drepresentations)、状态(states)。 PaLM-E的模型示意图和任务示例
PaLM-E有两种训练策略。1)各模态的编码器和PaLM一起训练,同时更新参数;2)考虑到LLM在给定合适的提示(prompt)时能够表现出很好的推理能力,可以“冻结(freeze)”LLM,只训练与模态相关的编码器。 完整的PaLM-E训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。PaLM-E进行跨任务的联合训练,其训练集为包含视觉、语言和具身数据。其中,完全混合(fullmixture)的数据集由来自各种任务的互联网规模的视觉和语言数据组成,通过设置采样频率,使得其中8.9%的数据为具身数据。值得注意的是,目前具身数据的训练数据集还远少于图像和语言训练数据集。 AI大模型技术快速迭代,行业竞争愈发激烈。在AI大模型领域,各科技厂商能否探索出稳定、可持续的尤其是ToB端的商业模式并确定合理的产业链定位将会成为下一阶段竞争的关键。