欢迎光临散文网 会员登陆 & 注册

合成歌声调教经验总结(三)歌声合成技术基础

2020-08-26 22:04 作者:十亿光年0707  | 我要投稿

    调声者使用歌声合成工具调声,亦须学习歌声合成技术。许多调教师在实践中掌握了声库制作以至歌声合成引擎制作能力,调声能力亦有提升。一般调教师虽无须精通各项相关技术,但仍需简单了解,以期调声过程中“知其所以然”。

    首先,从任何一种歌声合成工具编辑器界面即可推断出,引擎将对原音进行伸缩与变调,再将各个发音拼接成完整歌声。而如果想当然地草率实现这三个步骤,得到的声音缺不尽人意。故需先行了解一些本应于上一章讲解,但与本章关系更为密切的语音学知识。

SVR2中的波形显示功能,可以看出guang由k u A N组成,但由于SV将uA作为一个整体难以判断其界限(sil为静音记号,便于显示完整波形)
dv的音素界面,红、黄、绿、紫区域分别对应k、u、A、N

    可见一个(最复杂的)汉语普通话发音由声母和韵母组成,韵母可以分为韵头(u)、韵腹(A)、韵尾(N),其中声母先于理论发声时间(即节拍)发声,人类听感上以韵母起始对应节拍。

dv拉伸后的guang

    可见一般情况下,当拉伸发音长度时,韵头和韵尾基本保持不变,而主要拉伸韵腹。如果对韵头韵腹韵尾均等拉伸,得到的声音将十分奇怪(SVR1)。所以声库制作者会对原音进行标记,标出辅音、韵头、韵腹、韵尾的位置,以便引擎合理地进行伸缩。当然有时出于表现效果会拉伸韵头介母(万古生香:“谁马踏桃hu---a”),另当别论。

    如果使用混音宿主对人声进行移调而不勾选“共振峰保持”一类的功能,当移调达三度时人声音色即发生极大的变化,可见共振峰为影响音色的参数,一般歌声合成引擎中都会开放基于共振峰调整的性别(gen)参数以调整歌声音色。但算法移调即便保持共振峰也不可避免地会造成一定程度的失真,即通常所说的“电”的一种成因(另一种成因是音高过于平稳且过渡突兀,如没加默认滑音的无参utau)。

    最早的一批民间(非企业势)声库制作者常使用utau,一种原本只针对日语设计,但完全开源且自由度极高的歌声合成工具制作声库,初学者可以重走一遍早先声库制作者的探索历程:将字典上所有的发音各自单独地录制下来,在标记界面把“先行”放在声母与韵母的交界,将“辅音”(即“不拉伸”)放在韵头与韵腹的交界。发现韵尾与下一个声母衔接不够顺畅,于是使用“重叠”将韵尾与下一个声母部分重叠,将音量包络交叉淡化,得到一个相对顺畅的衔接。但此时韵腹与韵尾同时拉伸,一遇长音则效果不佳,于是将不含韵尾的韵头韵腹作为一个发音,将韵尾单独设定为一个发音,把韵腹与韵尾过渡阶段设定为“重叠”,令其与韵腹平稳过渡;将韵尾设定为“先行”中不重叠的部分,令其发音清晰完整。使用时在音符尾拆下与下一发音辅音长度相当的音符,调用韵尾音符交叉淡化,即可得到相对完整的发音(仅为其中一种标记思路,不唯一)。这种方案叫“扩张整音”。

    但韵尾与声母之间的衔接问题尚未真正解决。于是只能在录音时录制相关采样,出现了vcv与cvvc录音方案(c=辅音,v=元音),普通话vcv录音量极大无法使用,于是cvvc被广泛采用,即将普通话所有发音的所有衔接方式穷举录制,标记时将扩张整音的韵尾发音改为韵尾-声母发音(元音-辅音/vc)和语尾息。此时又发现由无声到发声的第一个音,即“开头音”,与句中的“中间音”发音有别,于是分别标记为不同发音,即是当下使用的中文cvvc(utau需手动或用插件拆音,dv与sv中自动完成)。

-guang、ang g、guang、ang R为cv部(开头音)、vc部、cv部(中间音)、语尾息

        普通话中,清辅音为噪波(有争议),频谱连续,无法识别音高;浊辅音和元音为谐波噪波混合,谐波频谱分立,可通过确定基频确定音高,可通过各级泛音频谱顶点连线确定共振峰;噪波即为通常所谓“气声”,故气声参数即为对引擎分离出的噪波振幅的调整,张力参数即为对泛音振幅的调整,音高参数即为对所有谐波在保持共振峰前提下的移调。正因如此,除响度(音量,动态同理)与气声以外的参数对清辅音无效。(对于SVR2自带正弦波音源,由于无噪波,无泛音,导致除响度(发声)、音高(颤音)以外的参数无效)

合成歌声调教经验总结(三)歌声合成技术基础的评论 (共 条)

分享到微博请遵守国家法律