从华智冰演唱出发的歌声合成技术综述(残废)

最后改于 2021.11.26
摘要:清华AI学生华智冰
关键字:华智冰 歌声合成技术 波形拼接法 隐马尔科夫模型 深度神经网络 X Studio
The research of song synthesis technology starting from Hua Zhibing's singing
0 引言
2021年6月,由质谱·AI、智源和小冰联合研发的中国首个原创虚拟学生——华智冰入学清华。6月8日,拥有虚拟歌手功能的华智冰在bilibili平台上发布了她的首支单曲《六月不是离别》。虚拟歌手最先以动漫形象在日本得到巨大反响,紧接着,国内各公司也相继推出自己的虚拟歌手和歌声合成软件。近年来,歌声合成技术迅速发展,歌声合成软件层出不穷,如今最先进的歌声合成技术基于人工智能算法,其实例就是华智冰的歌声合成。但由于歌声合成发展历史较短,具有实用性的歌声合成软件基本都是这20年内推出,所以该领域中缺乏总结性的研究。由于虚拟歌手都是依托于歌声合成软件而存在,所以本文重点研究歌声合成相关技术发展和如今歌声合成软件的情况,还以华智冰为对象,探究其歌声合成方式。
1 歌声合成有关技术发展历程
1.1 乐音合成技术
本文研究的歌声合成(Singing Voice Synthesis,SVS)技术是利用已有的歌词文本和乐谱合成歌声。歌声合成技术的发展建立在语音合成技术之上,而此二者都可以追溯到乐音合成技术,乐音合成相关原理和技术发展使歌声合成技术的出现成为可能。乐音合成技术的发展可以归纳为以电子模拟合成方法、数字模拟合成方法、采样合成方法、物理建模合成方法[1]以及人工智能方法为代表的五个阶段。
1.1.1 电子模拟合成阶段
最早声音记录设备——声波记录仪于1857年出现,这可以被视为电子音乐发展起点。在1876年,工程师耶里夏·葛雷(Elisha Gray)发表了电子机械震荡器专利。以此为基础,汤玛斯·阿尔瓦·爱迪生(Thomas Alva Edison)发明出留声机。在20世纪初期,李·德富雷斯特(Lee de Forest)发明出三级真空管,让电路制造并且放大音乐讯号成为可能。紧接着,美国人克希尔率先运用电振荡的原理来制造新型乐器[2],拉开电子乐器出现的序幕。
从1920年开始,随着第一个现实意义上的电子乐器以太发声器(Etherophone)的出现,大量电子乐器陆续涌现。但作曲家真正运用乐音合成技术是在二十世纪五十年代之后——在这个时期,诞生了大型的电子乐器合成器。
在电子模拟合成阶段,电子乐器采用的是模拟电子合成器,通过控制振荡器实现声音生成。模拟电子合成器又分为两类:减法合成器和加法合成器。减法合成器以复杂波形为样本,滤除其中一些频率来生成目标波形;加法合成器则更为复杂,它从样本波形出发,加入不同频率的泛音来获得不同音色。
电子模拟合成和数字模拟合成之间转变的重要过渡是混合合成(Hybrid Synthesis),混合合成不是完全的模拟或者数字合成。马丁·罗斯提出一种混合合成器的分类方法,将其分为数字控制模拟合成参数、数字控制振荡器、拥有模拟调节器的数字振荡器三类 [3]。
1.1.2 数字模拟合成阶段
与模拟电子合成器控制振荡器生成音乐的原理不同,数字音乐合成器使用数字声音合成技术生成波形并转换为声音信息。数字模拟合成使用的重要组件是数字信号处理器(DSP)和中央处理器(CPU),数字信号处理器模拟电子模拟合成阶段的振荡器和滤波器的效果,结合中央处理器对信号进行处理运算获得合成声音。
二十世纪八十年代,集成电路技术快速发展,随着芯片和微处理器的出现,数字合成器登上舞台。新型的数字合成器突破了乐音合成的瓶颈,也让计算机合成音乐技术进入迅速发展的阶段。
数字模拟合成方法与电子模拟合成方法类似之处在于“减法合成法”、“加法合成法”都是其常用方法,此外,其常用的合成方法还有频率调制合成法(Frequency Modulation Synthesis)。相比于加减法合成乐音,频率调制法的原理和现象更复杂。频率调制和合成法最先由John Chowning在其论文中阐述[4],频率调制法使用至少两个振荡器,一个产生原始波形——载波,另外一个产生调制波,然后利用产生的调制波改变载波频率来合成新的声音。随着调制波的增加,谐波的数量也会随之增加,当配备多个调制波振荡器时,就能对谐波进行精细的调整。原则上,频率调制合成方法能够合成任意声音信号[5]。
1.1.3 采样合成(Sample Modulation Synthesis)阶段
在二十世纪九十年代出现的采样合成法又可以被称为波表合成(Wavetable Synthesis)法或者采样回放合成(Sample Playback Synthesis)法。在此之前出现的加、减法合成,频率调制合成都是以简单波形作为原始声源,而采样合成是先采集一段真实乐器的音频存储在固定位置作为声源,等到使用时从存储的波表中寻找对应段利用算法对其音量、音高、截止频率等参数进行调制,以合成所需的声音[6]。采样合成与频率调制合成的最大区别就在于采样合成利用的是真实的声音样本,而不是简单的波形调制模仿,也正是由于这点,采样合成出来的音乐更加真实,更接近自然乐器演奏时的效果。
1.1.4 物理建模合成阶段
在二十世纪七十年代初就已经出现了物理建模合成的概念,但物理建模这个概念实际进入应用领域是在七十年代末期。物理建模合成技术的初始技术是斯坦福大学的凯文·卡普斯(Kevin Karplus)和亚历山大·斯特朗(Alexander Strong)在研究模拟拨弦和敲弦产生声音时偶然发现的,他们将其研究称为数字合成(Digital Synthesis)。同时,他们提出了一个模拟拨弦乐器的算法——Karplus-Strong算法。Karplus-Strong算法的原理非常简单,可以被归纳为随机生成白噪声与计算当前采样点和上一采样点的平均值这两步。通过不断计算当前采样点和上一采样点的平均值,Karplus-Strong算法使产生的声音发生动态变化:声音的高频成分会持续衰减,而其余部分同时发生着微小的变化,这使得通过算法获得的声音非常真实。[7]虽然他们研究的数字合成技术仍然归属于减法合成的范畴,但他们意识到这个算法本质上是在模仿振动弦产生声音的物理行为,并且通过修改算法中一些参数,能够模拟改变弦的物理特征,进而改变发声的效果[8]。
后续斯坦福大学研究人员深入研究Karplus-Strong算法后,最终在其基础上发展出了数字波导合成技术(Digital Waveguide Synthesis),并在1989年与雅马哈签署了开发技术的协议。数字波导是声波传播物理过程的有效计算模型,也构成了现代物理建模合成器的主要部分。其基本原理是理解乐器发声过程,用公式描述其振动发声的数学模型,再将模型整合为乐器的声音函数,从而真正地“制造声音”。
数字波导合成技术从实验室进入商业生产的标志性成果是1994年Yamaha公司发布的VL1合成器(图1-1),它具有49键键盘、2种声音,其音响引擎基于物理建模合成技术。

1.1.5 人工智能合成阶段
随着计算机技术和人工智能的发展,研究者们逐渐使用人工智能算法进行音乐合成。由于此类乐音合成技术都利用音乐序列数据的特征进行训练,再根据模型生成乐音输出,所以本文将其归纳为人工智能合成阶段。
人工智能合成阶段的早期使用的是浅层结构的合成算法,比如遗传算法[9]、隐马尔科夫模型(Hidden Markov Model, HMM)、基于树模型(Tree-based Models)和深度信念网络(Deep Belief Network, DBN)[10]。其中Frank Drewes和Johanna H¨ogberg在基于树模型的基础上提出了利用代数以完全基于树的方式生成音乐[11]。该方法由正则树文法或者电子键盘产生输入,经过一系列由音乐代数产生的树转换器的处理最后产生音乐。另外,将音乐作为训练数据,通过马尔科夫链或者隐马尔科夫模型计算乐音合成的相关参数的HMM方法同样可以合成乐音[13]。
在二十世纪八十年代中后期,最早的利用神经网络生成音乐的作品开始出现[14]。随着深度学习模型在数据处理,计算机视觉领域迅速发展,研究者逐渐开始利用多种深度学习方式对音乐进行合成,并取得了不错的效果。近年来应用广泛的神经网络架构有循环神经网络(recurrent neural network,RNN)、生成对抗网络(Generative Adversarial Networks,GAN)、Transformers模型以及变分自编码器(Variational Autocoder,VAE)[15]。
RNN是一种短期记忆网络,考虑一系列输入输出关系,不仅接受其他层的信息,而且还接受本身的信息,并形成环形网络。传统的RNN由于存在无法获取更高层次语义信息并且不能解决长程依赖问题[16],所以不能将模型训练到最优。现在一般将RNN与其他算法结合使用[17],或者使用由RNN改进产生的模型,比如常用的长短期记忆网络(LSTM)[18]。
GAN包含生成模型和判别模型,利用两种模型之间的博弈,生成乐音合成的最优结果。由其生成乐音的步骤如图1-2所示。于2017年提出的MidiNet[19]是应用GAN生成音乐的最早模型之一,它由Generator CNN,Discriminator CNN和Conditioner CNN组成。其中Conditioner CNN的作用是接收前面小节的信息输入,再将其输出信息作为Generator CNN的额外控制输入。

(来自《MUSIC COMPOSITION WITH DEEP LEARNING: A REVIEW》)
Google在2017年提出Transformers模型,之后该结构就被广泛应用于自然语言处理(Natural Language Processing,NLP)的各个领域中。Transformers以编码器-译码器体系架构为基础,其中每个编、译码器层都包含自注意力层(self-attention)和前馈层,在译码器的两个子层之间还有注意力层[20]。Vaswani 等研究者还在Transformers模型基础上进行改进,完成了音乐的创作[21]。他们在对几种乐音合成方法对比测试后发现:改良后的模型更具有真实性。
VAE是从自编码器(AE)改良而来,由编码器和译码器构成。其基本原理是通过训练将输入数据转化为编码数据,再由译码器接收编码数据,并由其重构出原始的输入。自编码器利用数值描述不同的潜在空间,而VAE则是使用概率进行描述。VAE的应用之一是谷歌在2018年推出的MusicVAE模型,它能用于混合和探索音乐得分[22]。
1.2 语音合成(Speech Synthesis)技术
语音合成技术是指以模拟人声为目的,利用机械、电子或数字化装置合成语音的技术。语音合成经历了机械式、电子式和数字合成三个发展阶段。
1.2.1 机械式合成阶段
语音合成技术的起源可以追溯到十八、十九世纪[23]。1779年, Christian Kratzenstein[24]利用芦苇管作为源、不同共振器作为滤波器制造出与人类声道类似,能发出5个长元音的装置(图1-2)。但由于其制作出的共振器形状是由实验获得,因此未受到应有的重视。这种情况一直持续到2006年,由Christian Korpiun重新证明克拉赞斯坦工作的意义。1791年,沃尔夫冈·冯·肯柏林(Wolfgang von Kempelen)发布了他制作的“说话机器”,该机器用风箱模拟肺部、用簧片模拟声带、用皮管模拟声道,还模拟出舌头和嘴唇。通过控制机器的“舌头”和“嘴唇”,创作者可以让机器发出单个声音或声音组合[25]。在十九世纪中叶,查尔斯·惠特斯通(Charles Wheatstone)对之前版本进行改进,使新版的机器(图1-3)能够发出元音和大部分辅音。


1.2.2 电子式合成阶段
从十九世纪末、二十世纪初发展起来的电子技术极大地推动了语音合成技术的发展,当时的电子技术不仅使电子音乐合成器得以诞生,还被用于语音合成技术研究。
尽管很多人认为,在1939年,由贝尔实验室的荷马·达德利(Homer Dudley)发明的电子发声器——VODER (Voice Operating Demonstrator)是第一个通过电子手段合成人声的装置,但在1922年,斯图尔特(Stewart)已经在其论文中介绍了最早的全电子合成设备[26]。斯图尔特的合成装置含有一个作为激励的蜂鸣器和两个用来模拟声道的声学共振电路。第一个被认为是语音合成器的设备是VODER(图1-4),它的灵感来自于三十年代中期由贝尔实验室开发的VOCEDER声码器。

1.2.3 数字式合成阶段
在对声音的研究过程中,研究者发现声音频谱中能量集中的区域的变化能够改变音色,创造出共振峰合成 (Formant Synthesis) 的方法以模拟发声。其中共振峰的参数可以对应声道的参数,因此利用共振峰原理建立的模型能够较为精准地模拟声道,合成较为真实的语音。第一个共振峰合成器由三个并联的电子谐振器组成,是Walter Lawrence在1953年提出[27]。由此开始,语音合成技术逐渐进入由共振峰合成技术主导的阶段。同时,随着计算机技术的快速发展,语音合成技术也逐渐步入数字合成的阶段,这使得共振峰合成技术得以与计算机技术融合,以数字化方式呈现。
在利用共振峰合成技术进行语音合成的实践过程中,人们也发现了这项技术的一些缺点,比如共振峰模型不能表示出语音中很多细节、模拟声道的不准确性影响语音合成的质量以及合成器组成复杂等[28]。因此,研究者又创造出波形拼接(Concatenative Synthesis)技术。
波形拼接和共振峰合成等技术有着本质上的不同:它是将事先录制好的语音单元拆分为合适的合成单元并建立语音库,在合成时选取语音库中适合的合成单元进行分析处理和拼接而形成完整的语音。在八十年代末提出的基音同步叠加 (Pitch Synchronous Overlap and Add,PSOLA)算法很好地解决了语音拼接合成中出现的一些问题,是波形拼接法中最常见的算法[29]。该算法的基本步骤可以被概括为:① 基音同步分析。② 对原始语音处理得到的短时信号进行基于时域、频域或线性预测的变换,得到短时合成信号。③ 将短时合成信号叠加合成为语音 [30]。已有的PSOLA算法可以被分为3种:时域基音同步叠加(TD-PSOLA)、频域基音同步叠加(FD-PSOLA)以及线性预测基音同步叠加(LP-PSOLA)算法[31]。通过PSOLA算法合成后的声音能够保持其原始的主要音段特征,又能拥有高清晰度和自然度,让语音合成质量得到很大的提高。
虽然波形拼接法能够合成真实度很高的语音,但制作其语音库的过程较为繁琐,需要消耗极大的人力、物力。所以在二十世纪末期,研究者们将目光转向了可训练的语音合成(Trainable TTS)技术。其基本原理是获取从语音库取出的语音单元的特征参数,再对提取出的参数进行建模,通过算法对参数或者模型进行训练,利用结果构建语音合成系统[32,33]。在可训练的语音合成技术中,使用得最多的是HMM。该模型能够自动构建新的合成系统(图1-5),对不同语音具有普适性,但由于其生成的语音是根据预测的声学特征合成的,所以相较于正常声音音质较差,清晰度也存在缺憾。

(来自《基于隐马尔科夫模型的语音合成技术研究》吴义坚 )
随着人工智能技术迅猛发展,深度学习逐渐被应用到语音合成领域,深度学习网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等深度学习模型都得到了成功的实践。深度学习构建多个隐含层,利用大量数据来学习声音中有用的特征,还建立文本特征和声学特征之间的映射关系,最终实现语音的预测与合成[34]。深度学习中常用训练好的DNN对输入的文本进行声学参数的预测,其具体流程如图1-6所示。

(来自《语音合成方法和发展综述》 张斌)
近年来为实现高质量的语音合成而使用的深度学习方法包括WaveNet、Deep Voice、Tacotron、VoiceLoop等[35]。WaveNet利用卷积神经网络,通过自回归的方式预测与合成波形;Deep Voice 方法里面,语音合成的各个模块中都融入了深度学习;Tacotron是一种端到端的语音合成方式,包括编码器、解码器和后处理网络,采用输入文本到特征矢量,再由特征矢量还原为语音波形的合成方法[36];VoiceLoop构建缓冲区短时间地存储语音,这样的缓冲区用于估计注意力、计算输出语音以及更新缓冲区本身内容。其结构也变得更加简单[37]。
1.3 歌声合成技术
在唱歌过程中产生的绝大多数声音(大约90%)都是发声的,而语音中则包含更多的不发声的声音(英语中大约60%发声、40%不发声)[38];唱歌时音域往往较宽,高音会突破语音的音域范围,需要使用假声;歌声中还常常要求使用混声,以实现高低音的统一;除此之外,不同的发声技巧会产生不同的歌声效果。这些都使得普通的语音合成模型不能直接就转变为歌声合成模型。歌声合成技术的发展建立在乐音合成技术和语音合成技术发展的基础之上,更着重于控制音高、节奏和歌曲的旋律等方面。为在歌声中融入情感表达,颤音也是歌声合成中的重点研究内容。因此,歌声合成技术比乐音合成以及语音合成技术发展历史更短,技术实现更加复杂。
歌声合成的有关实验可以追溯到二十世纪五十年代,贝尔实验室当时发明了很多能够唱歌的语音合成系统,其中之一是由Kelly和Lochbaum在1962年描述的声管模型(Acoustic Tube Model)。接着Max Mathews与他们一起研究了一些早期的歌声合成技术[39]38-46。
在语音合成技术发展过程中出现的VOCODER语音合成器[40]和线性预测编码(Linear Predictive Coding,LPC)也被运用到歌声合成中[41,42]。在VOCEDER中,通过调整子频段的参数能够改变声音的音高、音长或者频谱形状,因此能够简单地模拟歌声。LPC的基本原理是建立模拟发声器官的模型,根据之前的样本预测接下来的信号并进行参数调节,从而合成声音。
随着乐音技术中频率调制合成(FM)技术的发展成熟,研究者们也尝试将其应用到歌声合成技术中并获得了一定的成果[39]40。作为声道模型中的一种,共振峰波函数(Formant Wave Function,FOF)是可以直接计算信号波形振幅的时域函数。FOF具有计算快速简便、建模时不需要将激励函数和滤波过程拆开的优点,这极大地推动了FOF的发展[29]。如同共振峰声码器,FOF难以识别和表征共振峰,其参数估计较难。因此,FOF主要用于歌声合成方面[44],其中一个实例就是由Xavier Rodet等人开发的CHANT系统[45]。
在1986年,McAulay和Quatieri提出正弦语音模型(Sinusoidal Speech Modeling)用于语音合成。其基本原理是:将语音信号描述为激励信号通过线性时变滤波器的输出,过程中使用峰值拾取算法(Peak-picking Algorithm),由短时傅里叶变换(Short-time Fourier Transform)得到分量正弦波的频率、相位和振幅,并利用正弦波的产生和消失跟踪高分辨率分量的快速变化后进行平滑处理[46]。研究者们继续拓展McAulay和Quatieri的研究发现:该模型能够分离出和声、时间和音调,进行音高等参数的调整,并且能够得到精确的合成结果[47]。正弦语音模型由此能够在歌声合成技术领域得到应用。
以上基于参数合成的歌声合成技术虽然能够生成很好的歌声,但这些合成技术所需采集的参数个数较多,计算过程比较繁琐复杂,所以研究者们将目光投向波形拼接技术,希望波形拼接技术能够提高合成歌声的真实性和质量。
歌声合成中的波形拼接技术基本原理和语音合成中的相似,也是从已有的语音库中挑选并调节语音单元,再进行拼接合成。由于合成出的歌声源于录制好的真实语音,波形拼接技术合成出来的歌声更具有真实性。1997年推出的LYRICOS系统应用正弦模型,允许用户指定乐谱和歌词,以及如颤音和频谱倾斜等其他所需的音乐参数。在收到包含各项参数指令的MIDI文件后,LYRICOS系统选择语音单元表现分段语音特征以及协同发音效果,然后使用正弦模型修改指定的语音特征,最后输出拼接合成后的歌声[48]。语音合成技术中的基音同步叠加(PSOLA)和波形相似性叠加(WSOLA)技术也有应用于歌声合成的过程中,如今国内一项目组正在开发的Infinity Studio歌声合成软件就是基于PSOLA技术。 2008年,J. Bonada介绍了一种宽带谐波正弦建模(Wide-Band Harmonic Sinusoidal Modeling,WBHSM)技术,该技术能够在宽带条件下估计并变换谐波分量,获得的声音质量能够媲美PSOLA方法合成的结果[49]。对这项技术进行深入研究后,J. Bonada又提出了一种利用WBHSM算法,通过拼接从声库中获取的短波形单元以合成歌声的单元选择方法[50]。
虽然波形拼接技术在歌声合成领域应用广泛,并且保存了歌声的原始特征,但波形拼接技术不能保证各个单元都能顺利拼接,也需要大容量的歌声语料库,以覆盖各种歌声数据,这导致了制作语料库的过程复杂,成本高昂。因此,基于统计参数的歌声合成技术开始受到重视,而其中最具有代表性的是基于HMM的歌声合成技术。其步骤可以分为训练和合成两个部分。在训练部分,对声库中的歌声提取声学相关特征,再将参数输入HMM进行训练获得模型;在合成部分,将输入的歌词文本通过训练好的模型生成合成所需的声学特征,最后声码器利用预测获得的声学特征合成歌声[51]。具体流程如图1-7所示。

(https://zhuanlan.zhihu.com/p/144724789)
HMM将声库中的原始语音转换为统计信息再进行合成的方法免不了使合成后的歌声变得模糊,同时还存在过度平滑致使真实度下降的问题。为解决这类问题,近年来的歌声合成技术逐渐引入深度学习算法。在2016年左右,研究者们注意到DNN作为参数合成的声学模型应用效果非常好,大量研究表明使用DNN比使用HMM合成有更加优异的性能[52]。现在的歌声合成(Singing Voice Synthesis,SVS)系统已经在使用的深度神经网络包括带有长短期记忆功能的递归神经网络(RNNs)[53]、卷积神经网络(CNNs)[54]、GANs[55]和深度自回归模型(Deep Autoregressive Models)[56]2593等。融入深度学习的SVS系统需要在给定有歌词的乐谱的情况下准确合成歌声,因此,研究者近年来提出了数据增强(Data Augmentation)和音高归一化(Pitch Normalization)等方法用于生成音高的基频[57]。从PixelCNN模型演变而来的WaveNet深度神经网络在2016年被提出,是一个完全的概率自回归模型,其预测音频样本的概率分布方法是基于已经生成的所有样本[58]。一种对WaveNet改进后的歌声合成模型不再采用对原始波形进行建模的方式,而是对能够将音高和音色分离的参数声码器生成的特征进行建模。它所需的训练数据和训练时间较少,并能方便地修改音高和生成旋律[59]。由WaveNet发展而来的还有WaveGlow和WaveRNN,它们也都被应用于SVS模型中[60]。其中基于流的WaveGlow不需要自回归过程,以单网络,单损失函数进行训练。相比于自回归模型,它可以使用GPU和TPU进行加速运算;相比于非自回归模型,它训练过程简单、易于实现[61]。WaveRNN由Google提出,应用多种技术不仅简化了WaveNet模型,还能使合成速度和质量优于WaveNet[62]。
歌声合成与语音合成的一个重要区别是颤音的生成,颤音不被包含在乐谱信息中,但为追求歌声合成的真实性,需要根据上下文改变颤音的强度。YuanHao Yi团队提出的深度自回归模型应用于中文语料库能够有效地生成颤音[56]2593,2596。与这种模拟基频的波动不同,Yukiya Hono团队推出的Sinsy系统将颤音与基频部分分离并变换成正弦参数进行研究[63]。
由于波形拼接合成或者使用人工智能方法合成歌声都需要大型的声库,获取完整的声库成本高昂,限制了歌声合成的研究和应用。为降低成本,快速构建低廉的数据库,Yi Ren等人开发出多语言多歌手SVS系统——DeepSinger[64]。该系统先使用网络爬虫获取线上的歌曲数据,再分离歌曲中的歌声和伴奏,在获取时长信息后筛选数据进行训练。

(来自《DeepSinger: Singing Voice Synthesis with Data Mined From the Web》)
1.4 歌声语料库构建 标注技术
注:以下都是参考资料,现在没有时间学习后写论文,先列举。
https://zhuanlan.zhihu.com/p/20103646?from_voters_page=true
不论何种技术路线,都需要语音数据的储备。如何录制尽量少的数据来覆盖尽量多的语境组合,涉及到语料库设计(Corpus Design)的问题;
语料库录制好以后,为了能够选取样本进行拼接,或者训练一个统计参数模型,必须实现标注好语料库里每个音素的起始和结束时间。这个问题叫做自动语音分段(Automatic Speech Segmentation)或文语对齐(Text-to-Speech Alignment);
直接以波形存储的语音数据并不适合音高和时长修改,因此需要将语音转换成某种中间参数的形式,对中间参数进行变换后,再转换回波形数据。这称作分析-合成(Analysis-Synthesis),应用这种分析-合成技术对语音进行编码和解码的装置叫声码器(Vocoder);
也有不需要转换中间参数直接对语音进行音高、时长修改的方法,广义上就是语音时长/音高修改(关键字:Speech Duration/Pitch Modification);
许多语音修改算法或分析算法需要事先知道语音的基频曲线,这就涉及到基频提取(Fundamental Frequency Estimation/F0 Estimation)。许多基频提取算法不仅适用于语音,也适用于其它音频信号例如各种乐器;
如何从文本/曲谱生成出各个音节音素的时长和基频的变化曲线,即韵律生成/建模(Prosody Generation/Modelling),在歌声合成方面主要集中于基频曲线生成(F0 Contour Generation)。研究这一课题往往会用到机器学习手段;
如何将文本转换成一串音标或分割成一串音节、如何把语音中的阿拉伯数字、日期、货币符号等等转换成单词的形式、如何判断重音(Stress)的位置……这一系列我们一般划入语音合成前端(Front End)的工作,称作文本分析(Textual Analysis)。一般用到自然语言处理等机器学习手段(这里面水很深);
语音转换(Voice Conversion):把一个人说话的声音转换成另一个人说话的声音,有时还包括说话风格(比如语调、停顿)的转换。在统计参数合成的框架里这一般被称作Speaker Adaption。
广义上整个语音合成系统的设计。无论拼接合成还是统计参数语音合成,往往都是若干技术的组合(从上面提到的语料库设计到文本分析到分析-合成到基元选择算法等等)。选择哪些技术进行组合、怎么组合这些技术当然也是门学问。
高引用量论文:Hunt, Andrew J., and Alan W. Black. "Unit selection in a concatenative speech synthesis system using a large speech database." Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on. Vol. 1. IEEE, 1996. 使用动态规划进行大语料库拼接合成,将基元选择看作状态转移网络,提出误差权重的自动预测方法
1. 刘豫军,夏聪.语音合成音库自动标注方法研究[J].网络安全技术与应用,2015(02):65-66. (简单看看了解标注就行,价值不大)
2. 杨辰雨. 语音合成音库自动标注方法研究[D].中国科学技术大学,2014.
3. 白雪冰,韩志峰,蒋龙泉,黄云刚,冯瑞.音视频数据半自动化标注方法[J].微型电脑应用,2021,37(08):9-13+17.
4. 刘亚斌. 汉语自然口语的韵律分析和自动标注研究[D].中国社会科学院研究生院,2003.
5. 邹法欣. 语音语料库的设计与实现[D].广西师范大学,2012.
6. 知乎 语音标注的工作怎么样?(了解标注过程)
7. 没看见英文的论文,可以在之后的工作中找找
2 常见歌声合成软件介绍
2.1 国外歌声合成软件
2.1.1 Vocaloid
老牌歌姬软件(最早进入国内推广的、知名度最高的歌声合成工具)
每一个由Vocaloid授权的音源库或数据库都采样于真人实录片段。
电子合唱音重
拼接合成 引擎会通过诸如快速傅里叶逆变换(IFFT)等技术输出合成声音
2.1.2 Synthesizer V
2018 年圣诞节推出 Dreamtonics 开发
免费试用版,编辑器试用版,付费版(增加更多音轨和使用插件)
华侃如(中国人)编写了 SynthV 引擎的架构、算法和后端,并拥有 SynthV 的所有权。
日文,英文试用版声库多,中文少
质量参考2021百年祭《万象霜天》 链接如下:
https://www.bilibili.com/festival/2021bnj?bvid=BV1zN411d7dG&from=search&seid=7406844439974930069&spm_id_from=333.337.0.0
该曲目的歌手赤羽是以语音合成引擎Synthesizer V为基础打造的虚拟女性歌手。
“像火一样的少女。有着明亮而高亢的声线,以及勇敢而率真的性格。”
Synthesizer V采用自主研发的基于人工神经网络及拼接合成算法的LLSM (底层语音模型) 技术,仅使用少量采样数据即能生成自然的声音。

链接:
https://www.bilibili.com/video/BV1eh411J74T?from=search&seid=17138165903443630956&spm_id_from=333.337.0.0

2.1.3 CeVIO Creative Studio
2013年 介绍:https://zh.moegirl.org.cn/CeVIO
CeVIO Creative Studio 是基于HTS Engine引擎(语音)/Sinsy引擎(歌唱)制作的新型语音和歌唱合成软件,在算法本质上与VOCALOID/UTAU等软件的大声库“拼接算法”不同,是采用HMM(隐马尔可夫模型)的语音合成技术,因此声库体积较小(通常只有几MB,而VOCALOID通常是几百MB),却可以简单而自然地合成语音和歌唱,语音合成可以调整参数使她说话更加近人,歌声合成时自动加入呼吸声,并能生成比较自然的自动参数,同时也能够通过多种参数进行仔细调教。其效果可以媲美VOCALOID甚至更加接近人声。免费版本CeVIO Creative Studio FREE自发布以来深受好评(目前FREE版已经停止配布)。CeVIO Creative Studio正式版提供30天免费试用,可在官网下载。
目前的cevio ai 基于wavenet和wavednn
https://www.bilibili.com/video/BV12b41157xg#reply5800563875 看坚实的蝴蝶飞呀的评论
https://cevio.fandom.com/wiki/CeVIO_AI CeVIO AI
https://km4osm.com/cevioaikafu9800/
https://www.bilibili.com/read/cv13157789/
2.1.4 Sinsy
2009.12(支持中日英三语的开源声音合成引擎,使用和CeVIO Creative Studio相同的HTS Engine后端。)( 先把声音拆分成基频,共振峰频谱,噪声数据,再进入HMM训练 )
音高转换逼真,衔接/滑音偶尔有问题
《Recent Development of the DNN-based Singing Voice Synthesis System — Sinsy》
《Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System》
http://www.sinsy.jp/ (这个似乎不是官网的链接)
2.1.5 UTAU
一款由饴屋/菖蒲氏开发的免费的歌声合成软件,2010年1月份(v0.2.60版之后)改为共享软件。 多种合成算法:psola,world,llsm,Vocaloid和SynthV等商业软件也从UTAU中吸收了很多设计思路。UTAU大大推动了歌声合成技术的发展。

工作原理:
1. 用户点击播放后,UTAU生成一个临时的bat脚本
2. 脚本调用resampler,传入当前音符的原音设定、长度、音高曲线、flag等信息。resampler从音源中取出对应音频,变调后存放在临时文件夹
3. 脚本调用wavtool,传入原音设定、音量包络等信息。wavtool将resampler合成的音频拼接到输出音频末尾
4. 对每个音符重复2、3步骤,直到音轨结尾
5. UTAU播放输出的音频
2.1.6 NEUTRINO
由来自日本名古屋工业大学的SHACHI所开发的、基于卷积神经网络→音频合成深度学习模型(例如WaveNet,WaveRNN)与Morise开发的NSF(原本用的WORLD程序)(一种神经源滤波器模型,高速合成接近真人语音质量的语音)来完成合成唱歌任务、免费的虚拟人声合成软件。使用神经网络,NEUTRINO可以估算发声时间、音调、语音质量和语音模糊,再经由语音由声码器合成最终的声音。只需要输入一个带有歌词的musicxml文件,就可以将其启动转化为已经“唱好”的wav音频文件。
有关介绍:
https://zh.moegirl.org.cn/index.php?mobileaction=toggle_view_desktop&title=NEUTRINO
https://www.bilibili.com/read/cv4775686/ https://zhuanlan.zhihu.com/p/129055225
2.1.7 Emvoice
100-200美元
通常,人声合成需要在主机上运行的复杂合成和建模算法。结果可能令人印象深刻,但这项技术还没有达到现实主义的水平,并且已经停滞了一段时间。
Emvoice另辟蹊径,把演唱的人声分解成细微的层次,录制了构成多个音高的单个音素采样,然后通过一个复杂的云端引擎在互联网上重建数千个采样,并以闪电般的速度向你的系统返馈经过处理的完整人声。所以说,用户使用Emvoice One得到的声音并不是人造的,它是通过把真实歌手的人声采样重新组合来诠释所输入的歌词的(机器学习技术)
链接:基于机器学习技术的 Emvoice One 新虚拟男歌手声库 Jay 发布 - midifan:我们关注电脑音乐
2.1.8 Piapro Studio
官网:https://piaprostudio.com/
由C社开发
“初音未来 V4X”WEB 价格17,600日元 (含税)
初音未来(初音ミク/Hatsune Miku),是2007年8月31日由CRYPTON FUTURE MEDIA以Yamaha的VOCALOID系列语音合成程序为基础开发的音源库,C社就是CRYPTON FUTURE MEDIA这个公司
使用Vocaloid的API 在尝试做自己的引擎
2.2 国内歌声合成软件
2.2.1 AiSingers
基于深度神经网络,原理与VOCALOID类似 自动调教参数,上传云端合成
袅袅是第一款中国人自主研发的歌声合成软件,由长春迪声软件有限公司开发。
2016 年 4 月被厦门优他动漫科技(MUTA)收购
2.2.2 DeepVocal
国产歌声合成引擎中使用得最多的(根据B站月刊国产歌声合成引擎排行榜传送门中数据)
2.2.3 Muta
采样声音的发音原理,进行模拟后通过造音还原合成声音,试图解决中文咬字问题,提高发音的自然度
效果中等,音高转换较为生硬,衔接与发音不错
Muta 4.0 链接:https://www.bilibili.com/video/BV1EV41117H9?p=1 听不出合成的痕迹!!!
2.2.4 X Studio
情感表达不充沛,不如调教(我觉得还行)
从学习歌声本身,到学习歌声产生的过程
Xstudio2.0版本在10月22日正式发布(其实10.30时都没发布)
官网:https://singer.xiaoice.com/
2.2.5 Infinity Studio
改进了TD-PSOLA算法
Infinity歌声合成框架有多个组件构成,其中Infinity Studio编辑器作为首个多轨道多引擎编辑器,对于各种引擎的参数提供了很好的支持。其引擎接口经过特殊设计,引擎只需处理与当前解析的渲染任务相关的内容,无需考虑环境和渲染时机相关的问题,移植简便。编辑器在给各种引擎提供一个统一的调教方式的同时极大程度的保留了各引擎的合成效果特性,可以创造出风格多样的作品。Infinity Studio的参数曲线使用控制点与插值算法,可以快速地构建平滑的参数曲线,同时对于局部的参数片段可以进行保存与载入,提高工作效率。https://www.bilibili.com/read/cv12073521?from=search&spm_id_from=333.337.0.0
2.2.6 ACE虚拟歌姬
目前只支持移动端,AI自动调教
《ACE虚拟歌姬》的初始定位是一款音游产品,现在其性质介于游戏和创作工具之间,开发者们正在为其构建一个完善的音乐内容社区,让创作者们能在社区中自由发布交流创作出作品。
2.2.7 SharpKey
新策划是DeepVocal
2.2.8 Fool sing
在线使用无需安装
2019年分布内测,2020年没消息了,官网进不去了 b站内测做出的音乐声音真实,接近人声,效果非常好。咬字不清。 试听链接:https://www.bilibili.com/video/av47249751
2.2.9 其他
米哈游逆熵人工智能研究院 新研究出的声音合成技术在2021年2月7日通过bilibili平台中的虚拟up主:yoyo鹿鸣_Lumi的作品《想听我讲野猪公主的故事吗?》向公众展示。
视频链接:https://www.bilibili.com/video/BV1GV411i7wR?from=search&seid=17961740307844798509&spm_id_from=333.337.0.0
ByteSing 字节跳动人工智能实验室研究,没有公开的软件
2.3 软件&虚拟歌手分析
AI自动调教的优点:
1. 创作更加简便,成本更低廉
2. 手工调教的门槛较高,创作者们需要花费大量时间精力去学习使用; AI自动调教能降低歌曲创作对创作者们乐理知识的要求,使创作者们学习使用愈发便利,这些技术的受众也会变得更广,有利于推广虚拟音乐创作,让音乐更好地服务于人。
3. 相较于需要手动调教的软件,引入了深度学习功能的软件需要的采样数据更少,使软件轻量化。
AI自动调教的缺陷:
1. 在手动调教阶段,利用相同的声库,创作者们也可以令虚拟歌姬们展现出多种多样的调教风格。随着AI自动调教的出现,丰富的调教风格会有趋同的趋势。即使各种带有AI自动调教功能的软件还具备各种调参功能,但在歌曲已经被AI调教好的基础上,它们风格逐渐趋同的趋势很难避免。
2. 经历过手动调教时代的创作者们与各自的声库有深厚的情感基础。 AI自动调教虽然节省了创作者们的时间,但与此同时,简便的创作过程也会损害他们之间的情感羁绊,甚至使虚拟歌姬逐渐沦为他们眼中的工具。
歌声合成简便化、低成本化是其发展以来不可避免的发展趋势。
https://wenda.so.com/q/1512331932211876
虚拟歌手的优势:
1、人类在生理上存在语速、肺活量等的限制,而虚拟歌姬没有,因此能在一些方面超过人类的极限。
2、正常情况下,真人歌手要唱出高音需要从低音缓慢上升,而虚拟歌姬可以迅速从最低音升到最高音,接着再降下来,如此重复多次也能保质保量。
3、虚拟歌姬的音准非常优秀,调教好之后不会跑调,而真人歌手则不能保证。
虚拟歌手如今的劣势:
1. 获取虚拟歌手的音源库较为困难。为获得优质的音源,需要专业歌手、专业录音棚和高质量的干声,完成录制后还需要对获取的歌声进行标注,致使成本高昂,仅有较大型的公司和研究所能够承担,妨碍虚拟歌手的发展。
2. 虚拟歌手合成后的声音与现实人类的声音仍然有区别,缺乏唱歌时体现的情感,在滑音、衔接处不够自然。
相比于传统拼接式合成技术,AI合成在歌手风格差异化、还原度、演唱细节上都有一定优势,但也会造成一些音准、音色的稳定性问题(目前仍在调整)
3 华智冰演唱分析(时间有限,具体要结合软件及其他渠道消息分析)
使用的是X Studio软件合成演唱时的歌声,利用XiaoiceSing歌声合成系统。
使用FastSpeech系统架构,声码器为world vocoder。FastSpeech是Transformer的一种新型前馈网络,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。
参考:https://blog.csdn.net/lbg198808/article/details/103583575 全新语音合成系统FastSpeech——更好的声音自然度
为了将FastSpeech应用到歌声合成中,做出了如下改动:
1. 除了歌词的音素序列之外,所有的乐谱信息,例如,音节长度(note duration), 音高(note pitch)都被编码为输入;
2. 为了避免所谓“out-of-tune”问题,在音高和预测出来的F0之间增加了一个残差连接;
3. 除了音素长度loss,在训练阶段,还加入了音节长度loss(syllable duration loss),目的是增强节奏感(rhythm enhancement);
4. vocoder特征包括,mel-generalized cepstrum (MGC),以及band aperiodicity (BAP),而不是梅尔谱;使用的是WORLD vocoder。
XiaoiceSing的工作流程及其架构具体见下图。

使用从乐谱中提取的音素、音高和持续时长进行输入,具体如下图所示。

实验结果表明,XiaoiceSing在音质方面的性能优于卷积神经网络的基线系统,在音质方面超过1.44 MOS,在发音准确性(pronunciation accuracy)上超过1.18,在自然度(naturalness)上超过1.38。在两次A / B测试中,所提出的F0和持续时间建模方法分别比基线达到97.3%和84.3%的偏好性(preference rate),这表明XiaoiceSing具有压倒性的优势。
参考:https://zhuanlan.zhihu.com/p/357253522
https://zhuanlan.zhihu.com/p/340413809
XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
( Lu, Peiling & Wu, Jie & Luan, Jian & Tan, Xu & Zhou, Li. (2020). XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System. )
参 考 文 献
[1]王瑞年.当代计算机音乐技术发展概览[J].中国音乐学,2003(04):120-125.
[2]王毅.电子音乐发展史[J].科学大众(科学教育),2012(02):173.
[3] Martin Russ. Sound Synthesis and Sampling[M].Taylor and Francis:2012-11-12.
[4]Chowning, John M. “The Synthesis of Complex Audio Spectra by Means of Frequency Modulation.” Computer Music Journal 1.2 (1977): 46-54. Ccrma.stanford.edu. Ccrma.stanford.edu, 2007. Web. June-July 2017.
[5]刘明哲. 声音合成技术在电子音乐创作中的若干应用[D].吉林艺术学院,2017.
[6]李琦.浅析MIDI音乐中的波表合成技术[J].科技广场,2005(05):124-126.
[7] Karplus, Kevin, and Alex Strong, "Digital Synthesis of Plucked-String and Drum Timbres" in Computer Music Journal, Vol. 7, No. 2, Summer 1983. Reprinted in the Music Machine (MIT Press).
[8] https://musictech.com/guides/essential-guide/understanding-physical-modelling-synthesis/
[9] Horner, A., Goldberg, D.E.: Genetic algorithms and computer-assisted music composition. In: Proc. Fourth Int. Conference on Genetic Algorithms, San Diego, CA. (1991) 437–441
[10]王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416.
[11] Drewes F., Högberg J. (2007) An Algebra for Tree-Based Music Generation. In: Bozapalidis S., Rahonis G. (eds) Algebraic Informatics. CAI 2007. Lecture Notes in Computer Science, vol 4728. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-75414-5_11
[12] Horner, A., Goldberg, D.E.: Genetic algorithms and computer-assisted music composition. In: Proc. Fourth Int. Conference on Genetic Algorithms, San Diego, CA. (1991) 437–441
[13] Van Der Merwe A, Schulze W.Music generation with markov models[J].IEEE Multi Media, 2011, 3 (18) :78-85.[8]Van Der Merwe A, Schulze W.Music generation with markov models[J].IEEE Multi Media, 2011, 3 (18) :78-85.
[14] Jamshed J Bharucha and Peter M Todd. Modeling the perception of tonal structure with neural nets. Computer Music Journal, 13(4):44–53, 1989.
[15] 刘奡智,韩宝强.人工智能音乐发展现状与面临的挑战[J].人民音乐,2020(09):74-77.
[16] Bretan M , Weinberg G , Heck L . A Unit Selection Methodology for Music Generation Using Deep Neural Networks[J]. 2016.
[17] Olof Mogren. C-RNN-GAN: continuous recurrent neural networks with adversarial training. CoRR, abs/1611.09904, 2016.
[18] Automatic Music Generator Using Recurrent Neural Network | Atlantis Press (atlantis-press.com)
[19] Yang, Li-Chia & Chou, Szu-Yu & Yang, yi-hsuan. (2017). MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation using 1D and 2D Conditions.
[20] Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017.
[21] Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Noam Shazeer, Curtis Hawthorne, Andrew M Dai, Matthew D Hoffman, and Douglas Eck. Music transformer: Generating music with long-term structure. arXiv preprint arXiv:1809.04281, 2018.
[22] MusicVAE: Creating a palette for musical scores with machine learning. (tensorflow.org)
[23]Flanagan J., Rabiner L. (Editors) (1973). Speech Synthesis. Dowden, Hutchinson & Ross, Inc., Pennsylvania.
[24] Hoffmann R., Birkholz P., Gabriel F., Jäckel R. (2018) From Kratzenstein to the Soviet Vocoder: Some Results of a Historic Research Project in Speech Technology. In: Karpov A., Jokisch O., Potapova R. (eds) Speech and Computer. SPECOM 2018. Lecture Notes in Computer Science, vol 11096. Springer, Cham. https://doi.org/10.1007/978-3-319-99579-3_23
[25]Schroeder M. (1993). A Brief History of Synthetic Speech. Speech Communication vol. 13, pp. 231-237.
[26] Stewart, J. Q. (1922). "An Electrical Analogue of the Vocal Organs," Nature 110, 311-312.
[27] Klatt D. (1987) Review of Text-to-Speech Conversion for English. Journal of the Acoustical Society of America, JASA vol. 82 (3), pp.737-793.
[28] 张雪英. 数字语音处理及MATLAB仿真[M].第2版.北京:电子工业出版社,2016.
[29] 杨心祎. 歌声合成技术与应用探究[D].南京艺术学院,2015.
[30]刘浩杰,杜利民.语音合成技术的发展与展望[J].微计算机应用,2007(07):726-730.
[31] 张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016,37(01):186-192.
[32] Xuedong Huang, Alex Acero, Jim Adcock, Hsiao-wuen Hon, John Goldsmith, Jingsong Liu, Mike Plumpe. Whistler: A trainable text-to-speech system. In Spoken Language. 1996. ICSLP 96. Proceedings. Fourth International Conference on, volume 4, pages 2387-2390. IEEE, 1996.
[33]殷翔. 语音合成中的神经网络声学建模方法研究[D].中国科学技术大学,2016.
[34] Chen L, Yang H, Wang H. Research on Dungan speech synthesis based on Deep Neural Network[C]//11th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2018: 46-50.
[35]张小峰,谢钧,罗健欣,俞璐.深度学习语音合成技术研究[J].计算机时代,2020(09):24-28.
[36] Wang Y , Skerry-Ryan R J , Stanton D , et al. Tacotron: Towards End-to-End Speech Synthesis[J]. Interspeech 2017, 2017.
[37] Taigman Y , Wolf L , Polyak A , et al. VoiceLoop: Voice Fitting and Synthesis via a Phonological Loop[J]. 2017.
[38] Kim, Y. E. (2008). Singing Voice Analysis, Synthesis, and Modeling. In Handbook of Signal Processing in Acoustics (pp. 359–374). Springer New York. https://doi.org/10.1007/978-0-387-30441-0_23
[39] Cook P R. Singing voice synthesis: History, current work, and future directions[J]. Computer Music Journal, 1996, 20(3).
[40] Dudley,H. 1939. “The Vocoder.” Bell Laboratories Record, December.
[41]Moorer, A. 1978.”The Use of the Phase Vocoder in Computer Music Applications.” Journal of the Audio Engineering Society 26(1/2):42-45.
[42]Moorer, A. 1979,”The Use of Linear Prediction of Speech in Computer Music Applications.” Journal of the Audio Engineering Society 27(3):134-140.
[43] Rodet, Xavier. “Time-Domain Formant-Wave-Function Synthesis.” Computer Music Journal, vol. 8, no. 3, The MIT Press, 1984, pp. 9–14, https://doi.org/10.2307/3679809.
[44] Kim Y E . Singing Voice Analysis, Synthesis, and Modeling[J]. Handbook of Signal Processing in Acoustics, 2008.
[45] Rodet, Xavier, et al. “The CHANT Project: From the Synthesis of the Singing Voice to Synthesis in General.” Computer Music Journal, vol. 8, no. 3, The MIT Press, 1984, pp. 15–31, https://doi.org/10.2307/3679810.
[46] R. McAulay and T. Quatieri, "Speech analysis/Synthesis based on a sinusoidal representation," in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 34, no. 4, pp. 744-754, August 1986, doi: 10.1109/TASSP.1986.1164910.
[47] J. Smith III, X. Serra. “PARSHL: An Analysis/Synthesis Program for Non-Harmonic Sounds Based on a Sinusoidal Representation”. Tokyo, Proceedings of the International Computer Music Conference (ICMC-87), pp. 290 – 297, 1987.
[48] Macon M W, Jensen-Link L, Oliverio J, et al. A singing voice synthesis system based on
sinusoidal modeling[C]//1997 IEEE International Conference on Acoustics, Speech, and Signal
Processing. IEEE, 1997, 1: 435-438.
[49] J. Bonada, “Wide-band harmonic sinusoidal modeling,” in International Conference on Digital Audio Effects, Helsinki, Finland, 2008.
[50] J. Bonada, M. Umbert, and M. Blaauw, “Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016,” in Proc. Interspeech, 2016, pp. 1230–1234.
[51]周芸. 基于深度学习的普通话歌声合成的研究[D].西北师范大学,2021.
[52] O. Watts, G. E. Henter, T. Merritt, Z. Wu, and S. King, “From HMMs to DNNs: where do the improvements come from?” Proceedings of ICASSP 2016, pp. 5505–5509, 2016.
[53] J. Kim, H. Choi, J. Park, M. Hahn, S. Kim, and J.-J. Kim, “Korean singing voice synthesis system based on an LSTM recurrent neural network,” in Proc. Interspeech, 2018, pp. 1551–1555.
[54] K. Nakamura, S. Takaki, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Fast and high-quality singing voice synthesis system based on convolutional neural networks,” in Proc. IEEE Int. Conf. Acoust., Speech Signal Process., 2020, pp. 7239–7243.
[55] Chen, J., Tan, X., Luan, J., Qin, T., & Liu, T. Y. (2020). HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis. arXiv preprint arXiv:2009.01776.
[56] Y.-H. Yi, Y. Ai, Z.-H. Ling, and L.-R. Dai, “Singing voice synthesis using deep autoregressive neural networks for acoustic modeling,” in Proc. Interspeech, 2019, pp. 2593–2597.
[57] Y. Hono, K. Hashimoto, K. Oura, Y. Nankaku and K. Tokuda, "Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2803-2815, 2021, doi: 10.1109/TASLP.2021.3104165.
[58] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals et al., “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.
[59] M. Blaauw and J. Bonada, “A neural parametric singing synthesizer modeling timbre and expression from natural songs,” Applied Sciences, vol. 7, no. 12, 2017.
[60] Y. Gu et al., "ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders," 2021 12th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2021, pp. 1-5, doi: 10.1109/ISCSLP49672.2021.9362104.
[61] R. Prenger, R. Valle and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621, doi: 10.1109/ICASSP.2019.8683143.
[62] Kalchbrenner, N., Elsen, E., Simonyan, K., Noury, S., Casagrande, N., Lockhart, E., Stimberg, F., Oord, A., Dieleman, S. & Kavukcuoglu, K.. (2018). Efficient Neural Audio Synthesis. Proceedings of the 35th International Conference on Machine Learning, in Proceedings of Machine Learning Research 80:2410-2419
[63] Y. Hono et al., “Recent development of the DNN-based singing voice synthesis system - sinsy,” in Proc. Asia-Pacific Signal and Inf. Process. Assoc. Annu. Summit Conf., 2018, pp. 1003–1009.
[64] Y. Ren, X. Tan, T. Qin, J. Luan, Z. Zhao, and T. Liu (2020b) DeepSinger: singing voice synthesis with data mined from the web. arXiv preprint arXiv:2007.04590.
以上为第一部分(历史发展)参考文献