七月语音识别实战
语音激活检测
语音激活检测,简称VAC,是一种用于检查人声的技术,解决识别到声音中人的语音的问题,因为有声音但不一定是人的语音。
智能音箱在实际使用场景中,一般是放在一个空间内,然后人对他喊话,它进行识别和回应,“喊话 》回应”的过程是一个最小的交互过程。但空间内的声音不单只有你说话的声音,也有其他的声音,比如水龙头的流水声、空调的声音、开水沸腾的声音等等,音箱出于对用户隐私保护和设备功耗的问题,不能实时都让设备处在一个运行的状态(自己猜想、未求证),需要对这些这些声音进行识别,只在有人声的时候才运行对应需要的系统进行处理操作,于是就需要先做“语音激活检测”。
2、语音唤醒
语音唤醒,简称VT,上面通过“语音激活检测”技术检测到人的语音后,那是不是所有人的声音都需要进行回应处理呢?答案是NO,因为现实环境中存在鸡尾酒效应。在吵杂的环境中,我们一般只会获取到对你说的话,其他人的对话的声音我们会自动屏蔽掉,除非你在偷听旁边的对话,但其实偷听的时候你也会屏蔽掉其他的一些声音,但如果这时候有人喊了你名字,你也会马上反应过来,并进行对话回应,这是一个锚定的过程,把你我锚定在你我对话的过程中来,那么后面的对话就都是对你讲的了,那你就会去听他见的每句话。
回到智能音箱的场景,周围环境的声音中,有很多人的语音,家里的成员在对话,小孩子在吵闹,电视里的演员在说话,这么多的声音,那么那一句话是我应该去听且进行回应的呢?那么就需要先做“语音唤醒”了,相当于喊人的名字,你需要喊一下智能音箱的名字,让它知道你接下来是在和它说话,然后它才对你说的话做出反应,那么你喊名字后它响应的过程就