零基础炼丹 - vits版补充

2022-08-30 09:31 作者:夏夜有轻风 0人读过 | 我要投稿

注：本文仅用于技术爱好交流，非商用，不对读者的行为负责，请自觉遵守有关法律法规，保护版权，尊重他人劳动成果。

封面[0]来自推特用户空に青。@Sorani___Ao

本文发布了基于原笔记本[1]定制的可用于训练vits单人或多人模型的colab笔记本。由于提取数据集等部分和tacotron2部分大致相同，这里只简略介绍vits数据集制作的不同，以及介绍vits合成语音的大致流程。

vits笔记本地址：https://colab.research.google.com/drive/1eEwa5KmHrwZ06vM4CxkQyq6DAT_rSUMW?usp=sharing

tacotron2版本：

第一部分数据集制作的不同

训练vits单人模型，数据集制作与tacotron2完全相同。
训练vits多人模型，数据集中的语音列表文件略有变化，变化如下。[2]

中间多了一栏，是多人模型中人物的id标号，代表这是哪个人物的语音。同一个人物用同一个id。注意台词左边不要有空格。这部分需要和speakers的填写对应。

第二部分语音合成的步骤

以使用MoeTTS[3]和日语vits单人模型为例：

1. VITS单角色模型选择下载下来的G.pth文件。

2. 在G.pth文件所在目录下需要放置config.json配置文件。

3. 待合成的文本需要提前用cleaners转换。cleaners必须是训练模型时使用的cleaners。

参考资料：

0. https://twitter.com/Sorani___Ao/status/1537723123218644992

1. https://github.com/CjangCjengh/vits/blob/main/vits.ipynb

2. https://raw.githubusercontent.com/CjangCjengh/vits/main/filelists/hamidashi_train_filelist.txt

3. https://github.com/luoyily/MoeTTS

4. 使用到的库：https://github.com/CjangCjengh/vits

5. vits原库：https://github.com/jaywalnut310/vits

6. vits论文：Kim, Jaehyeon, Jungil Kong, and Juhee Son. "Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech." International Conference on Machine Learning. PMLR, 2021.

论文地址: https://arxiv.org/abs/2106.06103

标签：

零基础炼丹 - vits版补充

第一部分数据集制作的不同

第二部分语音合成的步骤