一篇文章看透智能座舱的多模态交互
汽车工业百年史中,座舱也一直在发展,从过去的机械化走到今天的电子化,也正在走向智能化。
机械化时期,座舱使用机械和简易物理装置进行单一功能和基本信息地展示;电子化时期,音响、液晶屏等开始广泛使用,配备音乐、导航等基本功能;智能化时期,互联网+、AI、大数据等技术开始上车,座舱成为驾乘人员可以发号施令的自主舒适智能移动空间。
智能座舱在传统座舱基础上,人机交互更加便利和多元化,自动化和网联化水平也大大提高。当前人机交互主要还是语音交互,驾驶员可以通过对话,完成常见非驾驶动作的指令。

不过,当前智能座舱的语音交互在情感性、多轮对话、唤醒或打断等方面仍存在一些问题,特别是不能领会命令实质。而多模态交互技术能够使人机交互整个过程更加立体、高效和低误差,必将成为未来智能座舱发展最为核心的技术之一。
1.语音交互
语音交互包括语音识别技术、自然语言处理技术、语音合成技术等,也就是通过声音识别、处理,生成指令要求。在智能座舱中语音交互最常用的场景,包括设备控制、导航和媒体娱乐三个方面。
可见即可说、连续对话、音源定位、免唤醒等技术已开始广泛搭载,语音交互也将变得更自然;个性化体验是座舱的目标,蔚小理等新势力从声音自定义、形象自定义、功能自定义等方面下了很多功夫。比如蔚来Nomi通过拟人化表情形象,在语音交互时增加了视觉反馈,Nomi可以通过屏幕表情给出聆听、开心、点赞等反馈,提高了驾驶员对语音交互的陪伴感和信任感。

2.手势识别
手势是人类最基本的肢体语言,手势识别要能够区分二维手势和三维手势。二维手势指的是简单地上下、左右、挥动等,如点赞、用手去比划数字。三维手势识别则要通过3D TOF摄像头进行三维手势检测。

现阶段手势识别主要应用在多媒体切换、音量控制、接电话、灯光控制等方面,功能比较单一,还是作为补充交互模态。以岚图追光手势控制为例,可以支持左右、上下和前后3种动态手势及5种静态手势,包括了确认、自拍、接听/拒接电话和播放/暂停等常用功能,结合四音区语音系统实现语音+手势的交互方式。
3.DMS
DMS是利用座舱内摄像头、近红外线等传感器,基于面部特征分析、头部姿态追踪、视线追踪、面部表情和情绪识别、身体姿势追踪和物体侦测等关键技术,实现对驾驶员的身份识别,以及疲劳驾驶、分心驾驶等危险行为的检测功能。主流DMS方案采用近红外摄像头拍摄驾驶员眼球运动、面部表情,进行计算和AI识别,分析出驾驶员疲劳、分心、危险驾驶等动作信号,以此来提醒驾驶员。

3D-ToF传感器
最近3D-ToF传感器的DMS方案也开始上车。3D-ToF可定位驾驶员眼神,协助AR-HUD实现动态校正。3D ToF是一种无扫描光探测和测距技术(调制光源主动照射物体),基于持续的光脉冲捕捉深度信息(通常短距离)。3D-ToF传感器方案图像处理深度精度比2D摄像头(视频方案)更高;镜头帧率较高,能够接收动态信息。

比如理想L9搭载的3D-ToF传感器,除了驾驶员眼睛注视和头部跟踪监控外,还将作为后续多模态交互的主要硬件载体。
L3级别自动驾驶要求驾驶员随时准备接管车辆,而DMS能时刻监控驾驶员状态,满足L3决策安全性要求,所以现在法规也有标配DMS的趋势。比如欧盟要求所有新车都要配置DMS,C-NCAP(中国新车评价规程) 2025版本也加入了驾驶员分神和疲劳监控功能的测评。
4.OMS
OMS是DMS系统的延伸,可以通过监测座舱内乘客的状态来进一步提升安全性能。比如OMS系统能够监测儿童或宠物是否遗留在车内,还可以检测人员是否使用安全带。交互或娱乐方面,也可以利用OMS摄像头完成手势识别,情绪识别,视频聊天等功能。

5.HUD
HUD 通常是对传统仪表板显示的补充,并提供与驾驶相关的补充信息,和高级驾驶员辅助系统(ADAS)功能集成在一起,能使驾驶员更轻松地检测到威胁或警告,从而更快地采取行动。HUD分为C-HUD、W-HUD及AR-HUD:
① C-HUD通过放置于组合仪表上方的一个半透明的树脂板作为投影介质反射出虚像,目前已逐渐被市场淘汰。W- HUD和AR- HUD成为主流方案。

②W-HUD主要通过挡风玻璃作为投影介质来反射成像,可以支持更大的成像区域和更远的投影距离,不过产品光学结构相对复杂,成本相对较高。

③AR-HUD相对于W-HUD而言成像区域更大、投影距离更远、成像也更加地生动直观。

AR,即增强现实,是指透过摄像头看到影像的位置及角度计算,再加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与交互的技术。随着光学、AR、图像识别等技术不断突破,AR-HUD以一种更加自然的方式呈现在驾驶员前方,从而可以用来提供更多有用的信息,例如导航、威胁识别等。
AR-HUD将信息直接显示在真实道路上,实现这一特性需要通过前视摄像头对前方的路况进行解析建模,得到对象的位置、距离、大小,再把HUD需要显示的信息精准地投影到对应的位置。

AR-HUD产品一般都包含车速、驾驶辅助和导航等信息。同时,融合DMS的眼神追踪摄像头,保障画面跟着眼睛实时动态调节,保持动态中的相对静止,减少产生眩晕感,提升AR-HUD体验感。

从去年开始,一线车企已经开始把AR-HUD作为高配及新旗舰车型的亮点功能,如红旗E-HS9、奔驰S级系列、大众ID系列、飞凡汽车等,理想L9配置AR-HUD显示屏,甚至取消了驾驶员面前的仪表盘,不过额外在方向盘上加了一块小尺寸的交互屏。
6.AID全息投影
全息投影技术是利用光的干涉和衍射原理,记录并再现物体真实的三维图像。AID即为全息空中智能显示系统(Aerial Holo Intelligent Display)”。技术源自于全息投影技术,不同于HUD需要投射在特制前挡风玻璃作为介质,AID借助光学原理投射在空气中,不需要任何介质;其次,只有驾驶员能够看到HUD投射在玻璃上的信息。而AID采用全彩裸眼3D影像,用户能够从各个角度感受到悬浮在屏幕上的真实效果。

AID全息显示同仪表、中控屏、视觉感知系统和语音交互系统等多维深度协同,与DMS的视线追踪和表情识别)、自动驾驶的环境感知等融合,感知驾驶员的心情以及车外环境,通过数字虚拟人进行主动关怀(如音乐电影播放、氛围灯开启)、疲劳提醒、危险预警、天气提醒、节日变装等,可以建立更深层次的情感交流,拥有更多陪伴和乐趣。

在“移动出行第三空间”概念指引下,融合视觉、听觉、触觉、文本等多维感知信息,打破单模态输入输出限制,多模态交互正深度应用于智能座舱,在大屏化、多屏化、AR全息无屏化的加持下,智能座舱将会带来更贴近人类真实使用习惯的沉浸式座舱体验。