欢迎光临散文网 会员登陆 & 注册

声纹识别模型汇聚层很重要吗

2021-01-04 21:48 作者:加勒比数学家  | 我要投稿

    端到端声纹识别模型在骨干层backbone后会接入汇聚层,进一步抽象特征。因此汇聚层采用怎样的方式直接影响到特征抽取和模型训练迭代及性能。因此,汇聚层使用怎么样网络结构是非常重要的。

     一般汇聚层会采用average pooling(TAP),或者 netvlad/ghostvlad。average pooling是平均池化,对骨干层输出的每一帧特征向量加起来求平均(即所有帧的平均向量)。

     netvlad和ghostvlad是另一种汇聚层的网络结构。通过确定汇聚点k(k是超参,k值事先设定)和残汇聚点k' ,将帧特征向量映射到汇聚层的汇聚点。

      从实际效果看,netvlad和ghostvlad效果更好,使得模型指标acc,eer值有显著提升。TAP网络结构仅仅将帧向量平均化的池化方式提取特征,在抽取帧特征的同时,并没有突出帧与帧之间特征重要度,从而不能很好的学习特征,故对模型分类任务的指标不如netvlad。反观,netvlad,特征映射可以通过特征权重体现差异化、重要性。

    ghostvlad效果更佳,通过设置残汇聚点k' , 预留了不起作用的特征汇聚点, 更接近实际。

声纹识别模型汇聚层很重要吗的评论 (共 条)

分享到微博请遵守国家法律