欢迎光临散文网 会员登陆 & 注册

零基础炼丹 - vits版补充

2022-08-30 09:31 作者:夏夜有轻风  | 我要投稿

注:本文仅用于技术爱好交流,非商用,不对读者的行为负责,请自觉遵守有关法律法规,保护版权,尊重他人劳动成果。

封面[0]来自推特用户空に青。@Sorani___Ao

本文发布了基于原笔记本[1]定制的可用于训练vits单人或多人模型的colab笔记本。由于提取数据集等部分和tacotron2部分大致相同,这里只简略介绍vits数据集制作的不同 ,以及介绍vits合成语音的大致流程。

vits笔记本地址:https://colab.research.google.com/drive/1eEwa5KmHrwZ06vM4CxkQyq6DAT_rSUMW?usp=sharing

tacotron2版本:

第一部分  数据集制作的不同

  1.   训练vits单人模型,数据集制作与tacotron2完全相同。

  2.   训练vits多人模型,数据集中的语音列表文件略有变化,变化如下。[2]

中间多了一栏,是多人模型中人物的id标号,代表这是哪个人物的语音。同一个人物用同一个id。注意台词左边不要有空格。这部分需要和speakers的填写对应。

0对应A的语音,1对应B的语音

第二部分 语音合成的步骤

以使用MoeTTS[3]和日语vits单人模型为例:

MoeTTSv1.1.1软件界面

1. VITS单角色模型选择下载下来的G.pth文件。

2. 在G.pth文件所在目录下需要放置config.json配置文件。

配置文件可以在笔记本后面生成

3.  待合成的文本需要提前用cleaners转换。cleaners必须是训练模型时使用的cleaners。

将转换结果复制到待合成文本一栏即可

参考资料:

0. https://twitter.com/Sorani___Ao/status/1537723123218644992

1. https://github.com/CjangCjengh/vits/blob/main/vits.ipynb

2. https://raw.githubusercontent.com/CjangCjengh/vits/main/filelists/hamidashi_train_filelist.txt

3. https://github.com/luoyily/MoeTTS

4. 使用到的库:https://github.com/CjangCjengh/vits

5. vits原库:https://github.com/jaywalnut310/vits

6. vits论文:Kim, Jaehyeon, Jungil Kong, and Juhee Son. "Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech." International Conference on Machine Learning. PMLR, 2021.

论文地址: https://arxiv.org/abs/2106.06103



零基础炼丹 - vits版补充的评论 (共 条)

分享到微博请遵守国家法律