欢迎光临散文网 会员登陆 & 注册

语音之家asv-subtools 声纹识别实战

2023-08-18 15:41 作者:每天2个拼课技巧  | 我要投稿

识别类型

1. 按应用场景分类

一对一:身份确认,即在知道是某人身份的情况下,判断音频是不是此人的声音。例如在银行app,当前已经登录账户,在进行转账或其它操作时,需要判断是否本人在操作,这时候就可以通过一对一场景下的声纹识别,判断是不是登录的账号本人。

一对多:身份辨认,在一个注册了很多声纹用户组中,根据音频判断是其中的哪个人的声音。比如很多人用微信注册了声纹,然后用声纹锁登录时,需要判断在所有已注册声纹的用户中,音频对应的是其中哪个人,在很多的注册用户中,找到音频对应的声音身份。

多对多(声纹聚类):在一些杂乱的音频中,找出特征相似(某个人)的所有音频,则可以通过音频之间的对比,把相似的音频归为一类,从而选出特征相似(同一个人)所有音频。

2. 按音频内容分类

文本相关:文本相关指的是说出规定的短句(一般为4到6个字的短句),用于声纹识别。例如在智能音箱唤醒的时候,可以根据音色判断唤醒人的身份 ,如果是小孩子唤醒则可以开启儿童模式,如果是未提前注册的则不能进行唤醒音箱。

文本半相关(随机数字串):指的是随机的6位或8位数字串,这是一种配合式的声纹识别模式,需要读出app或者其它客户端生成的6位或8位数字串,也可以结合语音识别技术(ASR)判断读的数字串是否正确。目前文本半相关的声纹识别模式在生活中接触到的最多,许多银行类的APP,以及微信和支付宝声纹识别都采用的这种方式,方便读、识别率也高。所以很多APP上的声纹识别身份认证一般都采用一对一的随机数字串。

文本无关:指的是没有文本规定,没有语言限制,只需要有某人的声音,就可以进行声纹识别,有一种场景是需要知道某段音频说话人的身份,但是音频是随机说的一些内容,需要对这些音频进行声纹识别,这种就是文本无关的识别方式。像警方的需求就比较多一些,因为警方可以拿到很多案件中关键性的音频,需要判断音频人的身份。以及在电话端的无感知声纹识别,不管电话里在说什么内容,都可以进行识别,判断对方的身份。


语音之家asv-subtools 声纹识别实战的评论 (共 条)

分享到微博请遵守国家法律