合成歌声调教经验总结（三）歌声合成技术基础

2020-08-26 22:04 作者:十亿光年0707 0人读过 | 我要投稿

调声者使用歌声合成工具调声，亦须学习歌声合成技术。许多调教师在实践中掌握了声库制作以至歌声合成引擎制作能力，调声能力亦有提升。一般调教师虽无须精通各项相关技术，但仍需简单了解，以期调声过程中“知其所以然”。

首先，从任何一种歌声合成工具编辑器界面即可推断出，引擎将对原音进行伸缩与变调，再将各个发音拼接成完整歌声。而如果想当然地草率实现这三个步骤，得到的声音缺不尽人意。故需先行了解一些本应于上一章讲解，但与本章关系更为密切的语音学知识。

SVR2中的波形显示功能，可以看出guang由k u A N组成，但由于SV将uA作为一个整体难以判断其界限（sil为静音记号，便于显示完整波形）

可见一个（最复杂的）汉语普通话发音由声母和韵母组成，韵母可以分为韵头（u）、韵腹（A）、韵尾（N），其中声母先于理论发声时间（即节拍）发声，人类听感上以韵母起始对应节拍。

可见一般情况下，当拉伸发音长度时，韵头和韵尾基本保持不变，而主要拉伸韵腹。如果对韵头韵腹韵尾均等拉伸，得到的声音将十分奇怪（SVR1）。所以声库制作者会对原音进行标记，标出辅音、韵头、韵腹、韵尾的位置，以便引擎合理地进行伸缩。当然有时出于表现效果会拉伸韵头介母（万古生香：“谁马踏桃hu---a”），另当别论。

如果使用混音宿主对人声进行移调而不勾选“共振峰保持”一类的功能，当移调达三度时人声音色即发生极大的变化，可见共振峰为影响音色的参数，一般歌声合成引擎中都会开放基于共振峰调整的性别（gen）参数以调整歌声音色。但算法移调即便保持共振峰也不可避免地会造成一定程度的失真，即通常所说的“电”的一种成因（另一种成因是音高过于平稳且过渡突兀，如没加默认滑音的无参utau）。

最早的一批民间（非企业势）声库制作者常使用utau，一种原本只针对日语设计，但完全开源且自由度极高的歌声合成工具制作声库，初学者可以重走一遍早先声库制作者的探索历程：将字典上所有的发音各自单独地录制下来，在标记界面把“先行”放在声母与韵母的交界，将“辅音”（即“不拉伸”）放在韵头与韵腹的交界。发现韵尾与下一个声母衔接不够顺畅，于是使用“重叠”将韵尾与下一个声母部分重叠，将音量包络交叉淡化，得到一个相对顺畅的衔接。但此时韵腹与韵尾同时拉伸，一遇长音则效果不佳，于是将不含韵尾的韵头韵腹作为一个发音，将韵尾单独设定为一个发音，把韵腹与韵尾过渡阶段设定为“重叠”，令其与韵腹平稳过渡；将韵尾设定为“先行”中不重叠的部分，令其发音清晰完整。使用时在音符尾拆下与下一发音辅音长度相当的音符，调用韵尾音符交叉淡化，即可得到相对完整的发音（仅为其中一种标记思路，不唯一）。这种方案叫“扩张整音”。

但韵尾与声母之间的衔接问题尚未真正解决。于是只能在录音时录制相关采样，出现了vcv与cvvc录音方案（c=辅音，v=元音），普通话vcv录音量极大无法使用，于是cvvc被广泛采用，即将普通话所有发音的所有衔接方式穷举录制，标记时将扩张整音的韵尾发音改为韵尾-声母发音（元音-辅音/vc）和语尾息。此时又发现由无声到发声的第一个音，即“开头音”，与句中的“中间音”发音有别，于是分别标记为不同发音，即是当下使用的中文cvvc（utau需手动或用插件拆音，dv与sv中自动完成）。

-guang、ang g、guang、ang R为cv部（开头音）、vc部、cv部（中间音）、语尾息

普通话中，清辅音为噪波（有争议），频谱连续，无法识别音高；浊辅音和元音为谐波噪波混合，谐波频谱分立，可通过确定基频确定音高，可通过各级泛音频谱顶点连线确定共振峰；噪波即为通常所谓“气声”，故气声参数即为对引擎分离出的噪波振幅的调整，张力参数即为对泛音振幅的调整，音高参数即为对所有谐波在保持共振峰前提下的移调。正因如此，除响度（音量，动态同理）与气声以外的参数对清辅音无效。（对于SVR2自带正弦波音源，由于无噪波，无泛音，导致除响度（发声）、音高（颤音）以外的参数无效）

标签：

合成歌声调教经验总结（三）歌声合成技术基础

合成歌声调教经验总结（三）歌声合成技术基础的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

合成歌声调教经验总结（三）歌声合成技术基础

本文作者的其他文章

合成歌声调教经验总结（三）歌声合成技术基础的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

合成歌声调教经验总结（三）歌声合成技术基础的评论 (共条)