每日文章学习
HMI车载设计人机交互系统课 4月18日打卡@郝小七的HMI设计圈
如何从零设计车载语音软件功能
一、国内车载语音市场的现状
主流:科大讯飞、Nuance、百度、思必驰、云知声等等。
其他:腾讯的语音服务、阿里的语音服务。
主流服务项目:
1.语音识别能力:符合条件的情况下识别率保持95%以上
2.语音合成能力:各家差别大
3.方言口语理解:高鲁棒性是关键(高鲁棒性:高鲁棒性就是指系统或者网络很健壮,很稳健。控制系统的鲁棒性是指系统在不确定性的扰动下,具有保持某种性能不变的能力。)
4.语义识别:资源服务整合能力基本相同
5.多轮对话:特定场景多轮对话,体验不太好
特点:没有明确商业化模式,功能趋同,从纯粹技术提供商往整体解决方案商发展。
车载语音解决方案合作模式
要求不高的车载项目:采用方案商提供的集成化较高的语音SDK进行二次开发,或是采用服务商的APK进行简单的定制和适配工作。
优点:节省大量的开发成本,保证核心语音服务模块的质量。
车内搭载语音服务的智能硬件
1. 智能车机:支持语音使用场景,让语音、系统和车辆三位一体。
2. 智能后视镜:相对来说系统稍微轻量化一些,语音功能只会负责一些简单的任务处理;
3. 智能HUD:核心资源聚焦驾驶过程中的车辆、道路、安全等信息的投射,比较注重视觉呈现的质量,语音功能作为一个重要功能辅助操作;
4. 车载音箱伴侣:语音服务是音箱产品最核心的功能,车载音箱更多的是针对车内空间的场景,主要聚焦在用户多轮次的交互对话体验和车生活服务的丰富度。
二、核心流程拆解
涉及角色:自建TSP平台、语音服务提供商、硬件厂商、互联网服务提供商、三方硬件等。
业务架构:以硬件为载体,服务平台化集成的形式,整体打包后提供给终端车主用户。
业务流程图:发出语音操作→录音上传数据→识别语音语义→准备服务资源执→行返回结果
三、模块设计
01-语音交互
语音启动的方式:界面点击和语音唤醒
设计语音唤醒功能步骤:判断并记录语音唤醒方式→提示信息和语音录取状态的反馈→判断语音录入是否正常→返回对应的识别结果(中途打断需要重新开始语音流程)
02-语义的场景化设计
语义的丰富度直接关系到用户体验度
语义少:不能满足用户多场景需求,丧失好感度,放弃语音功能使用
定义用户满意度和语义完整度:用户调研,经验总结得出真需求。
车载场景的语义细分后,主要分为以下几个场景
● 导航场景
● 音乐/电台场景
● 电话场景
● 系统控制类
● 车辆控制类
● 定制化服务类
03-帮助&设置
帮助方式:①在语音全局显示时给出使用说明;②失败或等待时给出信息提示
目的:引导用户正确使用语音功能
设置:常用的免唤醒开关、唤醒词、语音的音源逻辑、语音主题包的变更设置等。
四、TTS语音播报
TTS(Text To Speech)语音播报主要是通过AI技术把文本信息进行智能化合成,转述成语音信息播报给用户,从而给用户一种智能拟人化的交互体验。
现状:无法脱离语音素材录制,对语音包的种类数量和质量提升要求高,设计上受制于服务商的综合能力,会更加聚焦如何更好的提升语音交互对话的体验。
总结:如何让语音功能更有效的提升用户使用体验和满意度,则需要针对每个业务的实际需求和目标用户群体特征去进行更深入的差异化研究和设计。