零基础炼丹 - vits版补充
注:本文仅用于技术爱好交流,非商用,不对读者的行为负责,请自觉遵守有关法律法规,保护版权,尊重他人劳动成果。
封面[0]来自推特用户空に青。@Sorani___Ao
本文发布了基于原笔记本[1]定制的可用于训练vits单人或多人模型的colab笔记本。由于提取数据集等部分和tacotron2部分大致相同,这里只简略介绍vits数据集制作的不同 ,以及介绍vits合成语音的大致流程。
vits笔记本地址:https://colab.research.google.com/drive/1eEwa5KmHrwZ06vM4CxkQyq6DAT_rSUMW?usp=sharing
tacotron2版本:

第一部分 数据集制作的不同
训练vits单人模型,数据集制作与tacotron2完全相同。
训练vits多人模型,数据集中的语音列表文件略有变化,变化如下。[2]
中间多了一栏,是多人模型中人物的id标号,代表这是哪个人物的语音。同一个人物用同一个id。注意台词左边不要有空格。这部分需要和speakers的填写对应。

第二部分 语音合成的步骤
以使用MoeTTS[3]和日语vits单人模型为例:


1. VITS单角色模型选择下载下来的G.pth文件。
2. 在G.pth文件所在目录下需要放置config.json配置文件。

3. 待合成的文本需要提前用cleaners转换。cleaners必须是训练模型时使用的cleaners。

参考资料:
0. https://twitter.com/Sorani___Ao/status/1537723123218644992
1. https://github.com/CjangCjengh/vits/blob/main/vits.ipynb
2. https://raw.githubusercontent.com/CjangCjengh/vits/main/filelists/hamidashi_train_filelist.txt
3. https://github.com/luoyily/MoeTTS
4. 使用到的库:https://github.com/CjangCjengh/vits
5. vits原库:https://github.com/jaywalnut310/vits
6. vits论文:Kim, Jaehyeon, Jungil Kong, and Juhee Son. "Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech." International Conference on Machine Learning. PMLR, 2021.
论文地址: https://arxiv.org/abs/2106.06103