DiffSinger全流程教程(二)
歌声合成
这一部分主要为只是想体验,不打算自己训练的同学准备,训练请直接看(三)
声库共享表格:https://www.yuque.com/sunsa-i3ayc/sivu7h/vgbdclc62qnccd55
最新的语雀更新:https://www.yuque.com/sunsa-i3ayc/sivu7h

这里以氧气老师Fork的适用于DiffSinger的OpenUTAU为例
一、下载适用于DiffSinger的OpenUtau
https://github.com/xunmengshe/OpenUtau/releases
推荐带有DiffsingerPack的整合包
如果加载过慢可以右键复制链接使用https://d.serctl.com/搭配idm等多线程下载程序进行加速下载

二、下载音源,拖入OpenUTAU窗口安装
安装时右上角选择能正常显示的编码,如utf-8



三、选择歌手
在音轨左侧的歌手菜单的“DiffSinger”分类中找到你安装的歌手,选择
注:歌词支持汉字或拼音输入,连音符为加号+,呼吸音为AP,停顿为SP
说明
OpenUTAU默认开启自动预渲染,即你每进行一笔编辑,都会立即渲染音频并缓存。如果OpenUTAU卡顿,可在“工具→使用偏好→渲染”中关闭自动预渲染
DiffSinger相关设置可在“工具→使用偏好→渲染”中编辑:
渲染加速倍数:默认为50倍。降低加速倍数可提高音质,但会使合成速度变慢
默认使用CPU渲染,使用DirectML渲染速度更快。请将“机器学习运行器”设置为directml,GPU选择你的独显(NVIDIA和AMD显卡均支持),然后重新启动OpenUTAU

参数
DiffDinger支持以下参数
音高曲线
音素长度
DYN(音量曲线)
GENC(性别,需音源支持,默认可调范围±100相当于∓12半音,正方向为男声(共振峰降低))
参数的可调范围可在钢琴窗左下角的齿轮图标设置

音素器
目前OpenUTAU for Diffsinger包含4个用于Diffsinger的音素器:
DIFFS ZH 位于ZH分类,基于OpenUTAU内置的vogen音素模型,无需配置,支持汉语普通话
DIFFS RHY 位于ZH分类,基于 Diffsinger rhythmizer音素模型,效果更好
ENUNU X 位于General分类,基于NNSVS音素模型,需要音源开发者适配。适用于ENUNU支持的各种自定义语言。使用方法
ENUNU X EN 位于EN分类,基于NNSVS音素模型,需要音源开发者适配。适用于使用CMUDict的英文音源。使用方法
目前限制
暂不支持多说话人混合
