欢迎光临散文网 会员登陆 & 注册

三分钟科普 | 语音识别是如何发生的?

2022-06-30 23:09 作者:翻译技术点津  | 我要投稿



导语:语音识别已运用于日常生活中的多种场景,那么语音识别是什么?语音识别是如何发生的?语音识别能为我们的生活提供什么帮助呢?本篇文章带你一探究竟。


🔎 语音识别是什么? 

        语音识别主要指语音转文本,是一项综合语言学、数学和统计学的技术,通过机器识别,可将人类语音转化为文本形式。为达到最自然、最精确的效果,语音识别常结合人工智能算法(AI)和机器学习算法(ML)来分析语法、句法、句子结构、语音组成和声音信号,使机器更好地理解及处理人类语音。 在实际工作中,不同项目有不同的语音识别要求,因此需要选用相应功能来提高识别率,语音识别的常见功能包括: 

  • 语言权重:对特定场景中可能使用更频繁的特定词语(如产品或品牌名称、行业术语)与更常用的表达进行权重计算,从而提高系统准确性;

  • 说话人标记:尤其适用于多人说话的场景,将每位说话者进行单独标记,从而更容易识别谁说了什么;

  • 声学训练:确保系统能够适应对话过程中可能出现的外部声音(例如阵风、交通噪音、咳嗽),从而降低对文字识别的干扰;

  • 脏话过滤:顾名思义,使用过滤器来清除不文明用语。

🔎 语音识别过程是如何发生的?

        语音识别包括:语音输入、特征提取、特征向量、解码器和单词输出。简单来说,语音识别器利用算法通过以下步骤将口语转化为文本: 

步骤一:系统分析音频

步骤二:将音频分解为多个部分

步骤三:将音频数字化为计算机可读格式

步骤四:使用算法将音频与最合适的文本表示相匹配。 

        其中步骤四由解码器完成,解码器利用声学模型、发音词典和语言模型来确定适当的输出。 语音识别的质量基于转化准确率来衡量,发音、口音、音高、音量、背景噪音等因素都有可能增加错误率,因此必须添加声学和语言模型: 声学模型:用以表示语音和音频信号的语言单位之间的关系。语言模型:将语音与单词序列相匹配,以区分发音相似的单词。 因此,AIML通过各种算法或计算技术将语音识别为文本,以帮助提高系统准确性。最常见的技术包括:自然语言处理(NLP)、隐马尔可夫模型、n元文法、神经网络、声纹分割聚类。

 

🔎 语音识别常用场景?

汽车:较新的车型中往往有多种声控导航工具,允许驾驶员在不转移视线或不用手的情况下改变导航系统等方面,从而提高整体道路安全性; 

客户服务:虚拟助理越来越常见,如在电话中为客户提供帮助; 

日常技术:例如我们智能手机或其他设备上使用的虚拟助理(如 Siri 和 Alexa); 

教育:使用语音识别来加强与发音相关的语言教学; 

情绪识别:通过对声音特征的分析确定某人试图传达的具体情绪。情绪识别与情绪分析结合时尤其有用,能帮助我们了解客户对某种产品或服务的感受; 

免提通信:类似于汽车语音辨识的用途,也可以进一步提升,如无需接听智能手机即可接听电话; 

安全性:基于语音的身份验证可确保日常活动中的安全。


总结

         语音识别可以带来许多好处,但要使语音识别效果好,需要收集大量高质量的培训数据,数据多样性也很重要哦!

        特别说明:本文编译自 TAUS 官网,原文标题“What is Speech Recognition and how to do it?”,部分内容有改动。


编译:冯春霈

本文来源于微信公众号“翻译技术教育与研究”、微信公众号“语言服务行业”,致力于语言服务行业资讯、洞察、洞见~ 关注我们,了解更多精彩内容~ 


三分钟科普 | 语音识别是如何发生的?的评论 (共 条)

分享到微博请遵守国家法律