欢迎光临散文网 会员登陆 & 注册

【语音识别】【李宏毅】2022年最火的深度学习内容之一,不愧是全网最好的语音识别

2023-07-16 13:01 作者:迷了路的崽儿  | 我要投稿

语音识别:将语音序列转换为文本

  • 输出部分
  • phoneme :语音辨识中常用的token,是发音的基本单位,和音标有点像但比音标小。我i们需要用lexicon(字典)将phoneme组合转换为对应的字或者词。过去深度学习没有流行的时候,phoneme是一种常见的选择,但是坏处是需要lexicon(需要大量研究某个语言才能总结出lexicon)
  • grapheme:书写的基本单位。在英文中可以是英文字母+空白+标点,中文可以是方块字。grapheme不需要lexicon,所以如果没有lexcion的话用grapheme做语音辨识比较方便。,只要拿到语音和文字就可以做语音辨识了。
  • 输入部分

【语音识别】【李宏毅】2022年最火的深度学习内容之一,不愧是全网最好的语音识别的评论 (共 条)

分享到微博请遵守国家法律