欢迎光临散文网 会员登陆 & 注册

语音合成:基础与前沿

2020-08-26 15:14 作者:深蓝学院  | 我要投稿

第一章:语音合成综述(谢磊)

    1.     语音合成的定义、历史及应用

    2.     基本的语音合成系统构成

    3.     语音合成中的关键技术及评价标准

    4.     语音合成的资源

    5.     课程介绍

语音合成是人机语音交互的出口,其效果直接影响到交互体验。作为课程的开篇章节,这一部分将概述语音合成的定义、基本的语音合成系统组成、发展历程、主流的框架和关键的技术等,同时介绍一些可用的语音合成资源,最后对本课程的授课内容和实践内容进行一个全面介绍。

第二章:语音合成中的前端文本分析(陈云琳)

    1.     文本分析基础知识

    2.     文本分析的模块构成与方法

    3.     基于CRF的前端文本析模型

    4.     基于NN的前端文本分析模型

    5.     实践

        a.     基于CRF的分词

        b.     基于ngram/rnnlm的g2p多音字模型

前端文本分析是语音合成中不可或缺的一步,它负责对文本进行正则化,同时抽取文本中的发音、语法、韵律等信息用以语音合成中的声学和时长模型建模。本章首先介绍文本分析的基础知识,然后梳理文本分析的各个模块和常用处理方法,最后重点讲解基于CRF和NN的注音、分词和韵律预测模型。

第三章:传统语音合成算法(陈云琳)

    1.     传统语音合成概述

    2.     基于HMM的统计参数语音合成

    3.     语音合成中的时长建模

    4.     基于NN的统计参数语音合成

    5.     传统声码器技术

    6.     单元拼接语音合成

    7.     实践

        a.     World vocoder提取与合成

        b.     基于LSTM/GRU的声学与时长模型

基于隐马尔科夫模型(Hidden Markov Model,HMM)的语音合成技术是在深度学习兴起前最主流的系统。本章课程首先介绍HMM语音合成方法,包括基于决策树聚类、高斯混合模型(Gaussian mixture model,GMM)、时长建模等,而后重点讲解如何使用不依赖决策树的神经网络替代GMM来构建基于NN的语音合成系统,最后介绍传统的基于数字信号处理的声码器技术以及单元拼接合成方法。

第四章:基于序列到序列的语音合成(阳珊)

    1.     Sequence-to-sequence 和 attention机制

    2.     基于Tacotron的端到端语音合成

    3.     端到端语音合成的变体(一)

    4.     实践

        a.     实现基于Tacotron的声学模型

序列到序列(seq2seq)的语音合成方法将传统语音合成中的时长模型和声学模型整合到一个统一的框架下进行建模,简化了语音合成系统的搭建流程,同时可以使用较为精简的文本特征作为输入,此类技术又称为端到端语音技术(end-to-end TTS)。本章首先介绍序列到序列的语音合成的动机和基于attention的序列到序列算法,然后讲解语音合成中被广泛应用的序列到序列模型—Tacotron,最后介绍序列到序列模型的各种变体。

第五章:端到端语音合成进阶(阳珊)

    1.     端到端语音合成变体(二)

    2.     Attention机制探索

    3.     FastSpeech和DurIAN

    4.     实践

        a.     实现基于LSA的attention机制的语音合成

        b.     实现基于其他多种attention机制的语音合成(选做)

虽然序列到序列框架简化了语音合成的流程,但同时也存在一些稳定性问题。本章将深入讲解序列到序列模型中更适合语音任务的attention机制及其应用,然后探讨结合了显式时长指导的FastSpeech和DurIAN框架。

第六章:神经声码器(张雨超)

    1. 概述

    2. 基于normalizing flow的神经声码器:WaveNet, WaveRNN, LPCNet, WaveGlow

    3. 基于GAN的神经声码器:Parallel WaveGAN,MelGAN

    4. 实践

        a. 实现基于Mel特征的WaveRNN

        b. 声学模型与神经声码器的对接

基于数字信号处理声码器的语音合成经常存在机械音等问题,音质欠佳。神经网络应用于声码器之后,音质获得了极大的提升。本章主要讲解基于神经网络的多种高质量神经声码器(neural vocoder)。首先介绍基于WaveNet的声码器,然后探讨结合数字信号处理和神经网络的WaveRNN和LPCNet声码器及其相关变体,最后介绍基于Flow和GAN的神经声码器。

第七章:语音合成的高阶应用(张雨超)

    1.     风格化语音合成:GST,VAE

    2.     多说话人建模和说话人自适应技术

    3.     实践

        a. 个性化声音制作

人类语音是富有表现力的,这对语音合成技术提出了更高的要求,为此本章重点讲解风格化语音合成技术,包括在端到端框架下基于GST和VAE的风格化建模方法。此外,在实际应用中,我们往往需要对多个说话人进行统一建模,同时利用少量的目标说话人进行模型自适应建模。本章将同时讲解多说话人建模和说话人自适应技术。最后本章将介绍语音转换(voice conversion)技术。

第八章:总结展望(谢磊)

    1.     课程回顾

    2.     语音合成的挑战

    3.     语音合成前沿展望

在本课程的最后章节,我们回顾整个课程的知识、梳理总结语音合成的相关技术,并讨论语音合成面临的挑战以及对未来趋势的展望。

语音合成:基础与前沿的评论 (共 条)

分享到微博请遵守国家法律