声纹识别概要介绍

严格意义来说,声纹识别属于语音识别领域,这个领域包括声纹识别,语音辨识,语音切割,语音转文本,文本转语音等。但一般也跟NLP联合,应用于智能语音交互机器人,多模态机器人上。
声纹识别技术路径分为传统的声学模型和端到端的深度学习模型。
传统声学模型:MFCC或fbank提取语音文件频谱,在加上xvector+plda
端到端深度学习模型:提取频谱特征后,采用resnet,netvlad,softmax
模型评价:EER,一般作为声纹识别的评价指标。当fa=fr时,eer=E(fa)=E(fr)
模型使用:多分类(辨识某人),二分类(确认某人)。其中辨识某人是从若干人中识别出某个人。而确认某人是指确认该声纹是不是属于某人。