有奖调查 | 召唤KWS/ASR爱好者

2020-06-24 09:10 作者:电堂科技 0人读过 | 我要投稿

参与KWS\ASR （关键词唤醒\语音识别）调研赢奖品

今天，你有没有跟手机上的Siri玩成语接龙？下班回家后，你家的Echo有没有热情地欢迎你回来？

不知不觉中，AI已经深入到我们生活的方方面面，而语音交互成为最基本最直接的AI控制方式。语音交互生态的成熟，将会带动越来越多的设备语音化、智能化，使语音真正成为人机交互的界面。

语音识别，云端还是终端

语音识别技术是指机器自动将人的语音的内容转成文字，又称 Automatic Speech Recognition，即ASR技术。

语音识别方案主要有三大部分组成：语义识别平台，CPU主控，以及MIC（麦克风）阵列。

当前主流的语音识别方案是在终端上进行声音采集和前处理，语音识别算法则放在服务器（即云端）上运行。这是因为作为CPU主控，目前嵌入式终端上的CPU性能还不够强劲。这种方案有泄漏隐私（把终端上的语音数据发给服务器）和无网状态不能使用等缺点。随着终端CPU性能日益强大，未来的语音识别所有功能都能够终端上实现。

关键词唤醒，可以在终端

不过，目前我们也不用消极等待。关键词唤醒功能（Key-word-spotting, KWS）是可以在终端上实现的。关键词唤醒是指设定一个唤醒词，如Siri的“Hi Siri”，只有用户说了唤醒词后，终端上的语音识别功能才会处于工作状态，否则处于休眠状态。这样做主要是为了降低功耗，增加续航时间。所有的手持设备对功耗都很敏感，绝不可能让语音识别功能一直处于工作状态。

ST已经和中国合作伙伴OpenAILab一起，将算法移植到了STM32L4、STM32F4、STM32F7和STM32H7平台上。下面的视频就是基于STM32L496的探索开发板。近场模型标准版只需要占用STM32L4 12MIPS, 200kB的Flash和26kB的RAM。