【语音之家公开课】多说话人语音识别的前沿进展

2023-03-30 11:23 作者:语音之家 0人读过 | 我要投稿

本次语音之家公开课邀请到俞帆进行分享多说话人语音识别前沿进展。

公开课简介

主题：多说话人语音识别前沿进展

时间：2023年3月31日19:00-20:00

嘉宾介绍

俞帆，西北工业大学音频语音与语言处理研究组硕士，导师谢磊教授，毕业加入阿里巴巴达摩院。研究生期间主要研究方向为多说话人语音识别、非自回归语音识别、中英混杂语音识别等，在包括ICASSP、Interspeech等语音顶级国际会议发表多篇论文。

课程摘要

在深度学习的推动下，在典型单说话人语音场景下，语音识别系统的准确率已经达到了人工转录员的水平。但是在包含说话人语音重叠的多说话人场景下准确地识别语音仍然是一个非常挑战的任务，这需要对多个同时讲话的说话人进行转录。特别是会议场景中包含了更多挑战，如说话人重叠率较高的多人讨论、说话人数量未知、远场语音信号衰减、噪声和混响干扰等。本次分享将概述多说话人语音识别的背景、研究现状，对比分析目前已发布的多说话人数据集，而后对本人硕士期间多说话人语音识别前沿工作进行介绍，包括多通道多说话人语音识别、基于级联的说话人相关语音识别、基于非自回归的说话人相关语音识别等工作，最后对未来工作进行展望。

议程