计算机行业报告:大模型如何引领具身智能新发展
报告出品方:长江证券
以下为报告原文节选
------
1.什么是具身智能?
具身智能有哪些特点?
具身智能机器人需要以第一人称的身份融入周边环境
具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。第三人称只能做到旁观式学习,而第一人称可以主动与现实世界互动,通过物理形态的互动中汲取新知识。
具身智能需要高泛化性
具身智能机器人需要与复杂世界进行互动,因此决策控制系统需要高泛化性
当前机器人的感知、决策、控制系统由大量传统算法组合而成,如SLAM算法、路径规划算法等;而传统算法模型即使经历大量的训练,仍存在较多小概率场景(corner case)难以覆盖,泛化能力较低。
以特斯拉自动驾驶系统Copilot为例,2021年特斯拉辅助自动驾驶系统错误地把卡车的白色货厢识别成了天空,导致Model Y撞上货车发生车祸。纯白的货车停在十字路口属于小概率场景,自动驾驶算法由于没有经过同场景训练,所以无法生成对应决策。
具身智能需要思维链能力
具身智能需要拆解复杂任务以及根据环境变化不断调整自己的动作和任务目标,因此需要思维链能力
在现实世界中,机器人难以一次性完成整个复杂动作,因此需要将复杂动作拆解成多个简单步骤完成;此外,由于现实世界远比机器人训练场景复杂,机器人不是唯一客体,所以在任务过程中会受到各种干扰,环境也会不断变化;因此具身智能机器人需要较强的思维链能力。
以下图为例,向PaLM-E机器人发出任务指令:“把零食从抽屉中拿给我”,机器人将其拆解为5个步骤。在执行过程中,人类把机械臂抓取的零食打落回抽屉。搭载PaLM-E的机械臂仍能调整任务目标,完成任务。
大模型是具身智能机器人的必备选项
大模型具备高泛化性与思维链能力,因此成为具身智能系统必备选项
大模型的出现有望彻底颠覆机器人的软件开发范式。预训练赋予了大模型知识压缩的能力,因此预训练后的大模型具备较高的泛化能力,可以应对从未见过的任务场景。有较高泛化能力的系统可以应对小概率场景(corner case),有望大幅度降低了算法开发的复杂度。当模型的参数扩大到一定的量级,大模型会涌现出思维链能力。因此大模型是具身智能机器人的必备选项。
具身智能是大模型的终极应用场景
从文本到图像再到现实世界,具身智能是大模型的终极应用场景
目前大模型技术已从单纯的大语言模型(LLM)发展到图像-语言多模态模型(VLM);随着谷歌图像-语言-动作多模态模型(VLA)的推出,大模型有望在人形机器人场景快速渗透。
从文本到图像再到现实世界,大模型的数据模态逐渐丰富,数据规模的数量级迅速增长,大模型的应用场景和价值量也成比例扩张,具身智能有望在未来成为大模型终极应用场景。
2.本轮大模型进步对具身智能的影响?
人形机器人可以分为服务型和劳动型
按照使用场景的不同,人形机器人可以分为服务型机器人
和劳动型机器人服务型机器人主要用于客服与接待场景,此类场景对人机交互有较高需求,因此服务型机器人通常外表高度拟人,配备了人机交互系统,有成熟的语言识别、合成算法;但往往机械硬件配置较低,机动性差,难以完成精细动作。服务型机器人的主机厂有达闼、优必选等。
劳动型主要用于工业、电力巡检、安防等场景,可以将人力从简单重复劳动或者重体力劳动中解放出来。劳动型机器人重视精准动作控制,通常配备高性能电机、高强度关节,机动性较强,但难以完成复杂的人机交互。劳动型机器人的主机厂有特斯拉、云深处、宇树科技等。
服务型机器人-短期方案
服务型机器人的短期方案:大语言模型(LLM)+感知算法+决策控制算法
大语言模型的出现给服务型机器人带来了巨大的技术供给。在大模型出现之前,服务型机器人的人机交互主要靠深度学习模型完成,但深度学习没有文本生成能力,所以针对不同的问题只能给出固定答案,且由于泛化性较低只能解决常见问题。在大模型出现之后,机器人人机交互能力大幅度提高,只需在大模型下游搭配语音算法即可解决覆盖绝大部分服务场景。机器人的大模型系统搭载于云端,全部语言交互由云端计算生成。
在运动控制方面,由于服务型机器人不需要精准动作行为,所以决策控制算法相比劳动型机器人较为简单。服务型机器人的大模型仅仅用于人机交互方面,无法对机器人的决策控制产生影响。
劳动型机器人-短期方案
劳动型机器人的短期方案:感知算法+复杂决策控制算法
短时间内,由于多模态大模型发展尚不成熟,大模型仅能在人机交互方面为机器人赋能,在运动控制方面仍需技术迭代。所以在动作控制方面,劳动型机器人的动作由感知算法配合复杂的决策控制算法共同完成。由于机器视觉技术仍存在短板,所以机器人往往还需要激光雷达/IMU等传感器配合其感知环境。
人型机器人中期方案
人型机器人的中期方案:图像-语言大模型(VLM)+控制算法
VLM大模型将文本数据与图像数据混合编码喂入深度神经网络架构训练,得到了具有图像逻辑思维能力的多模态大模型。和传统的感知决策控制算法相比,VLM可以参与人形机器人的决策,仅控制部分需要传统算法参与。此方案在决策方面有较强的泛化能力,可以应对从未见过的场景,并且具备逻辑推理能力。
目前该技术方案的瓶颈在于图像-语言多模态大模型尚未发展成熟,预计仍需要1-3年时间VLM才能在机器人场景获得较高的渗透率。
人型机器人远期方案
人型机器人的远期方案:图像-语言-动作多模态大模型(VLA)
VLA模型是人形机器人触及具身智能的关键因素。相比于图像-语言模型,VLA把机器人动作数据也作为一种模态融入大模型算法,因此可以用单个模型完成感知、决策、控制全流程计算。将动作数据作为模态融入后,机器人动作将成为思维链的一环,因此决策与控制的衔接更流畅,更具逻辑性。
目前VLA方案的瓶颈在于机器人动作数据难以匹配其他两种模态的数据规模,所以三种模态的同步数据较为稀少,需要VLM中期方案的长期积累。VLA方案预计需要2-5年时间才能获得较高渗透率。
3.巨头的布局和行动?
短期:决策控制算法改良-ChatGPTforRobotics
微软推出了ChatGPTforRobotics模式,可以大幅度提高算法开发效率
在人类用自然语言指派任务后,ChatGPT可以迅速根据要求生成相应的代码,机器人会根据代码完成对应任务。以往面对新任务时需要人工开发算法,ChatGPTforRobotics模式可以大幅度降低新任务的算法开发难度。
ChatGPTforRobotics模式缺点:本质上决策还是由人类来做,需要人实时监督,所以距离具身智能仍有一段距离;决策过程需要人与ChatGPT的多轮互动,所以动作延迟较大。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
科技 / 电子 / 半导体 /
人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |