【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法

2023-07-03 18:32 作者:风澪瑟 0人读过 | 我要投稿

so-vits 4.1 将默认的声音特征输入更换为了 ContentVec 第 12 层 Transformer 输出（简称 vec768l12），而 4.0 版本默认使用的是 ContentVec 第 9 层 Transformer 输出（简称 vec256l9）。因此，4.1 版本的模型结构也与 4.0 版本产生了区别。但 so-vits 4.1 版本仍然支持 4.0 版本模型的推理与训练，只是需要更改一些参数。总结归纳如下：

1. 在 config 文件中，如果需要适配 so-vits 4.0 的 vec256l9 模型，则将以下选项设为指定的值：

"filter_channels": 768,

"gin_channels": 256,

"ssl_dim": 256,

"speech_encoder":"vec256l9",

同时，也顺便给出 so-vits 4.1 的 vec768l12 模型的配置选项值：

"filter_channels": 768,

"gin_channels": 768,

"ssl_dim": 768,

"speech_encoder":"vec768l12",

需要注意的是，这两种模型的 filter_channels 均为 768；

2. 也存在直接生成对应的 config 文件的方法，在调用 preprocess_flist_config.py 时指定 --speech_encoder 命令行参数为 vec256l9 即可。但需要注意的是，需要将生成的 config 文件中的 filter_channels 项改为 768，否则模型结构还是与 4.0 版本不兼容；

3. 在进行数据集预处理，即调用 preprocess_hubert_f0.py 时，指定 F0 预测器（--f0_predictor 命令行参数）为 dio。因为 so-vits 4.0 在数据集预处理时使用的就是 dio 预测器（但在推理时使用的是 pm 预测器）。不同 F0 预测器具有不同的效果，可以自行测试一下。

标签：人工智能 AI AI语音 sovits

【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法

【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法

本文作者的其他文章

【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

【AI歌声 / sovits】在 so-vits-svc 4.1 中训练与推理 4.0 版本模型的方法的评论 (共条)