第五章多模态交互-声音图标、告警、语音感知、手势交互

2023-03-16 13:45 作者:野米AM 0人读过 | 我要投稿

声音图标

图标也有与其对应的声音图标，各类预警、告警声音就是典型的例子。这种代表不同含义的声音分为两种，合成音和自然音。

合成音：代表的含义相对抽象，其意义是后天赋予的，是通过学习产生的。如苹果电话铃声，在汽车设计上，也越来越注重这种声音设计，如开车门声、车载系统开启声音等。还可以赋予特定的声音特定的含义，不过这个含义扔需要通过后天的学习来获得。

自然音：来自自然界，不需要特别学习就能够识别，如雨滴，在日常生活中，这种声音为我们构成了对周边环境的认知。

告警

告警的设计主要可分为视觉、听觉和触觉三部分。最常用的就是视觉和听觉告警。

一个告警一般会含有四个部分：信号词、危害性、性质说明和后果说明。

告警的设计需要包含四个要素：被注意到、被读到、让人明白和意义明确。这四要素对于具有告警意义的说明书和产品危害告警尤其重要。

被注意到（让人的选择性注意力能关注到，听觉告警比视觉告警更有效）
被读到（告警的文字、图标必须能够让人清晰的识别，声音也要更凸显）
让人明白（所用的语言是大众常用的，可以接受的和看的明白的语言）
意义明确（语言的表述方式对用户的感觉是不一样的，如规劝语气和命令语气）

语音感知

感知语音学是研究语言感知的学科，语音由说话人说出，成为言语波，通过空气传到听话人耳中，经过听觉机制、神经系统理解语音含义。广义的说，上述全过程都是言语的感知过程。

语音识别技术的过程主要采用了3种技术：

自动语音识别（ASR，automatic speech recognition）
自然语音处理（NLP，natural language processing）
语音合成（SS，speech synthesis）

语音识别技术的目的是让机器能够听懂人类的语音，是汽车语音交互的一个重要组成部分。

人类在语音感知的过程中，和文字语言一样，同时采取由下至上的方法（识别文字和语音的元素）和由上至下的模式（通过应用场景和上下文来“猜测”可能的文字或语音），在自然语言处理方面，由上至下的模式对语言的理解是很重要的一环。

除了语言、语音本身传达的信息之外，其他的因素对语言的交流起很大作用：

口腔的运动（唇语）
非语言的暗示（讲话时的手势、身体姿势及面部表情等）
歧义性（交流时的困惑和不解）
对交流的内容有共同的背景知识

手势交互

手势交互是指用户直接使用手部动作与机器进行交互，一般需要手势识别、运动跟踪、体势识别、脸部表情识别等计算机技术的支持。

手势指仅用手部完成的操作。包括手势在内的人体肢体运动是一种源自人与人之间的自然互动的非语言沟通方式。

人的肢体语言分为两类：先天姿势和后天姿势。

手势设计的挑战

在手势设计过程中，最大的挑战是如何使用户快速建立手势-功能连接，并尽可能降低用户的记忆负荷。因此，手势交互要被广泛应用的前提条件可能是将手势语言标准化及找到自然的手势语言以方便记忆。

用户的经验（包括对物理规律的感知、已有人机界面模式的使用经验）、社会文化习俗、反馈方式等，均会影响个体的动作使用与习得。

手势操作的反馈

肢体动作稍纵即逝，不留下任何痕迹，因此，需要对用户提供必要的反馈，告知其肢体输入是否已正确输入及识别功能。目前这类反馈主要来自视、听通道，尤其是视觉通道。对驾驶员而言，视觉超负荷时最大的问题，引入手势交互是希望能够减少驾驶员的视觉负荷，因此，如果将手势交互引入车内交互，反馈设计是很大的挑战。

容易出现的问题

体感交互的可靠性是另一个问题，不同于传统的交互方式，在体感交互中用户可能会在无意间做出某个动作，却可能触发某个并非期待中的功能。这将导致用户无法理解系统的当前状态或操作与结果之间的关联，使用户对系统的控制感下降或丧失。

标签：

第五章多模态交互-声音图标、告警、语音感知、手势交互

声音图标

告警

语音感知

手势交互