欢迎光临散文网 会员登陆 & 注册

语音之家声纹识别与音频处理

2023-08-13 22:28 作者:bili_34604920956  | 我要投稿

识别类型

1. 按应用场景分类

一对一:身份确认,即在知道是某人身份的情况下,判断音频是不是此人的声音。例如在银行app,当前已经登录账户,在进行转账或其它操作时,需要判断是否本人在操作,这时候就可以通过一对一场景下的声纹识别,判断是不是登录的账号本人。

一对多:身份辨认,在一个注册了很多声纹用户组中,根据音频判断是其中的哪个人的声音。比如很多人用微信注册了声纹,然后用声纹锁登录时,需要判断在所有已注册声纹的用户中,音频对应的是其中哪个人,在很多的注册用户中,找到音频对应的声音身份。

多对多(声纹聚类):在一些杂乱的音频中,找出特征相似(某个人)的所有音频,则可以通过音频之间的对比,把相似的音频归为一类,从而选出特征相似(同一个人)所有音频。

2. 按音频内容分类

文本相关:文本相关指的是说出规定的短句(一般为4到6个字的短句),用于声纹识别。例如在智能音箱唤醒的时候,可以根据音色判断唤醒人的身份 ,如果是小孩子唤醒则可以开启儿童模式,如果是未提前注册的则不能进行唤醒音箱。

文本半相关(随机数字串):指的是随机的6位或8位数字串,这是一种配合式的声纹识别模式,需要读出app或者其它客户端生成的6位或8位数字串,也可以结合语音识别技术(ASR)判断读的数字串是否正确。目前文本半相关的声纹识别模式在生活中接触到的最多,许多银行类的APP,以及微信和支付宝声纹识别都采用的这种方式,方便读、识别率也高。所以很多APP上的声纹识别身份认证一般都采用一对一的随机数字串。


语音之家声纹识别与音频处理的评论 (共 条)

分享到微博请遵守国家法律