ChatGPT如何改善汽车座舱内的人机交互体验?
摘要
汽车座舱竞争力的核心是人机交互,其中心任务是多轮对话。当前痛点:缺乏常识,理解力弱,话题接不住,回复离题,前后不一致等。ChatGPT展示了超强的理解力和丰富的生成能力,类人表现令人惊叹。其关键技术主要有两点:1、具备涌现能力的大模型;2、模型对齐(RLHF)。本文论点:汽车座舱应该建立模型对齐和多模交互能力,以在座舱场景下达到极致的人机交互用户体验。
背景介绍:自去年11月30日发布以来,只用了2个月,ChatGPT就达到1亿用户。这几个月来,“由 chatGPT 发布引发的 AI 海啸,从业界到民间,从投资人到企业家,前所未有,蔚为大观”。这里自然有炒作和泡沫,但技术突破和科技革命也不容否认。
痛点和机遇:汽车座舱竞争力的核心是人机交互,其中心任务是多轮对话。当前痛点:缺乏常识,理解力弱,话题接不住,回复离题,前后不一致等。ChatGPT展示了超强的理解力和丰富的生成能力,类人表现令人惊叹。其关键技术主要有两点:1、具备涌现能力的大模型;2、模型对齐(RLHF)。对于后者,媒体往往谈得不多。本文尝试从模型对齐切入,谈一谈对座舱竞争力构建方向的思考。
解决方案:BERT,是填空,解析更强;GPT,是续写,生成更强。续写可以兼容解析,但解析不能兼容续写。加上BERT路线在参数量继续加大后难以收敛,这条路线算废了。
大模型
提起大模型,很多人有误解,说“大力出奇迹”。言外之意是大模型过多的借助大算力和大数据,而不是人类的聪明才智。研究人员应该追求用更小的模型,更少的数据实现相同的涌现能力,这才能让技术民主化,才算“高尚”的算法。对于这个问题,我建议大家看看这篇文章和视频。关于ChatGPT如何对常识进行构建,据一些朋友讲,OpenAI内部的人也不完全清楚。很多时候不是在发明,而是在发现。没有人(包括Sam Altman)预先知道语言模型有这么强,开始大家只是通过 prompt engineering 零星的知道 GPT-3 内部有更多东西。根据OpenAI去年12月发布的视频:“即使在今天,我们也无法窥视神经网络的深处,了解机器内部发生了什么。”我个人的看法是:人脑思维例如构建常识的复杂性超出了目前人类语言能够描述、理性能够理解的极限。上面理查德·萨顿文章的最后一段,提到“思维的内容是巨大的、不可救药的复杂”。他认为我们尝试简化思维的过程,让我们目前的理解力能够企及,这是行不通的。我们是无法通过类比等方法让学龄前的孩子真正理解广义相对论的,如果硬这么做,这个类比会因为相距甚远、面目全非而无法帮助孩子理解本质,并进行应用。我目前对此悲观,感觉要人类理性理解大脑的思维过程可能就好像让学童理解广义相对论一样。大模型本质上是对人类思维的粗略的模拟。我们有些模拟是建立在对原理的精确理解之上的:比如在对牛顿第二定律理解的基础上,建立了游戏引擎/物理引擎中关键的部件-刚体动力学模拟;在对纳威斯托克斯方程理解的基础上,实现了流体模拟。但是人类思维不一样,我们可能只能借助大模型这一粗略的模拟来使AI系统达到通用智能(AGI)/超级智能(ASI)的能力,而无需也无法对思维的原理有一个清晰的理解。这对于建立强大的AI系统来说可能已经足够,但稍稍想一下,就能品出里边的危险:这相当于制造了一匹没有笼头和马鞍的不受控制的烈马。它可能反噬,伤害人类。关于超级智能的潜在危害请参考这篇 文章 和 视频。而模型对齐相当于给烈马套上笼头。
模型对齐
一个AI系统可能很有能力,有很多知识,比如GPT-3和盘古大模型。但它不知道人类想让它做什么。如果不能理解人类显式和隐含的意图(如价值观),它就不会那么有用。比如给GPT-3输入提示:“请向6岁儿童解释登月一事”。它可能以为你让它写出类似的句子,于是它的回答可能是:“请向6岁儿童解释无限的概念”。这显然不是你想要的。简而言之,建立有用的AI系统通常分两步:1.让它有能力;2.让它做你想让它做的事儿。#2就是对齐(alignment)。随着AI系统越来越强大,这对人类安全至关重要。若想直观了解,可参照这个视频:OpenAI:对齐AI系统使其遵从人类意图。
世界范围内,在对齐研究方面造诣较深的主要是DeepMind和OpenAI这两家以AGI为愿景的公司。代表人物是 Jan Leike,他于2017年在DeepMind发表了人反馈强化学习(Reinforcement Learning from Human Feedback,简称RLHF)的论文。目前担任OpenAI对齐研究的负责人,是将GPT-3向InstructGPT/chatGPT华丽转变背后的灵魂人物。这篇文章 是 Jan Leike 对 OpenAI 对齐研究方法的简单介绍。OpenAI的对齐研究方法包括完善RLHF、AI辅助的人类评估以及自动对齐研究。 他们设计的方法不光是为了对齐GPT-3的。随着人工智能的飞速发展,我们必须在AGI(乐观估计在2029年出现)和ASI(乐观估计在2040年出现)出现之前设计并完善好对齐它们的方法。马斯克最近呼吁:“AI潜力巨大,立法刻不容缓”。对AI安全进行保障的关键措施就是对齐。Jan Leike 在 这篇文章 中对DeepMind 和 OpenAI 过去几年在对齐研究中的实践和对未来的展望做了比较详细的总结。

稍微展开:语言和语言模型的本质是所有句子的概率分布。语言和知识的关系是:句子“猫有4条腿”比“猫有三条腿”概率大,这是语言模型知道的“真实”。对齐在效果上类似于剪枝,确切点说是调整分支的概率。光凭语言模型能否建立空间想象力呢,视觉模态可以在概念之间建立仅凭语言无法建立的连接。多模态学习并不是遥不可及的,也是提高大语言模型性能的一个重要解决方案。
启发或建议:
1、针对“理解力弱”的痛点。智能座舱应该就大模型的对齐技术进行研究,并基于现网数据训练奖励模型,给到大模型进行对齐,使得到的大模型变体更加理解座舱场景下司乘人员的意图,以在座舱场景下达到极致的人机交互用户体验。
也就是以舱内传感器和效用器(车控、数字人、扬声器等)为依托。基于座舱传感器(摄像头、麦克风)等“察言观色”,收集用户对大模型生成内容的偏好,优化RM模型,适配车载特定需求。
另外,座舱竞争力的关键在于持续提升用户体验。而德鲁克说过:“无法量化就无法优化”。那么如何“量化智能座舱的用户体验”就是一个非常关键的问题。

这里chatGPT对齐技术的Step 2很有启发意义:可以基于人类反馈对用户体验进行建模,得到一个类似奖励模型的用户体验评分模型。用它作为代理指标(proxy metrics)协助我们进行座舱用户体验的提升工作。

这项工作也称为“主观体验客观化”(Objectification of Subjective Experience),是体验建模的一部分,可以量化评估&改善很多非常主观的座舱特性。
2、针对“话题接不住,回复离题”的痛点。基于车载传感器(摄像头、麦克风、GPS等),感知对话场景,形成对话上下文 prompt,给到类似ChatGPT的大模型,使人机交互“言之有物、物有所指”。
3、针对“前后不一致”的痛点。建议基于类似ChatGPT大模型的能力,建立人格化的对话系统,基于文本prompt或微调的方式赋予角色个性或“人设”,以及实现会话级情绪建模。
情绪建模指大模型建模会话中数字人的情感波动,并将情感标签返回。情感标签形式可以是离散的或连续的(valence & arousal),可用于数字人表情控制和情感化TTS。关于对话模型中的情感建模,请参考"无监督情感神经元"的研究和视频介绍。
总之,我们期待类似ChatGPT的大模型在舱内人机交互中发挥越来越重要的作用。下图是个比较远景的畅想:

所以你怎么看?请在评论区中告诉我。感谢观看和慷慨支持,期待深入的讨论!
问题和讨论:
1)在人与人交流中,主动发问是非常有价值的。现在所有 chatbot 都是人问它,它很少主动问人。你认为大模型可以基于场景上下文 prompt 进行应景的主动发问吗?
2)多模对话技术在座舱内有什么应用场景?对于类似ChatGPT的大模型来说,座舱多模对话场景中高效的 prompt 会是什么样的?
3)如何应用对齐技术以使得在座舱场景下AI系统对司乘人员意图的理解更上一层楼?
4)你对Claude模型中宪法AI的想法怎么看,可否借助宪法机制提升座舱场景下人机对话的安全性(以及有用性、无毒性)?
大胆的想法
最后提一个大胆想法供大家批判:DeepMind 的围棋AI AlphaZero 仅仅通过自我对弈(self-play)达到超一流棋手的水平。那么在大型语言模型的对话场景中,是否也有可以实现 self-play 以减少对数据的依赖呢?