【AI变声/翻唱】so-vits-svc指南

2023-08-01 09:24 作者:bili_70205312953 0人读过 | 我要投稿

这篇专栏针对Windows系统，不过用GNU Linux的想必也不需要教程。

这不是一键包教程。

在开始之前，请先确保你有显存在6GB以上的N卡，10GB以上的可用磁盘空间(SSD)，和足够的耐心。一次训练（包括浅扩散模型）可能要耗费数天时间。

环境准备

下载并安装Python(https://www.python.org/downloads/)

Python3.8.9为so-vits-svc官方推荐版本，但实测3.8.9到3.9.13均能正常运行，3.10及之后版本未测试，个人推荐3.9.13。在安装时请勾选Add to Path。安装完成后，在命令提示符(cmd)中执行python -V 和 pip -V，若正常输出版本则安装没有问题
可选项：安装Git(https://gitforwindows.org)
下载so-vits-svc(https://github.com/svc-develop-team/so-vits-svc)

如果你下载了git，请直接将仓库clone到本地。如果没有，点击绿色的Code，选择Download ZIP，下载压缩包并解压到本地。
搜索安装自己显卡对应的Cuda
在命令提示符(cmd)中导航到解压得到的so-vits-svc-4.1-Stable文件夹中，执行下面的命令，安装所需的第三方库：

pip install wheel

pip install -i https://pypi.douban.com/simple -r requirements_win.txt

注：这里使用的是豆瓣源，如果下载速度过慢请更换为其它源
由于pip会安装cpu版本的pytorch，因此需要卸载后重新安装Cuda版本的Pytorch

打开命令提示符，执行pip uninstall torch -y 和 pip uninstall torchvision -y

到https://pytorch.org/选择自己Cuda版本对应的Pytorch，执行Run this Command:后面的命令

至此，环境搭建完毕

训练、推理：

https://github.com/svc-develop-team/so-vits-svc/blob/4.1-Stable/README_zh_CN.md

这是官方的教程，很详细，请在完整阅读后看看下面的几点补充：

https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12

这里有vec768l12编码器的底模，若需要响度嵌入请下载vol_emb里的文件。下载后将它们重命名为D_0.pth和G_0.pth，放到logs/44k下。
https://github.com/CNChTu/Diffusion-SVC#21-训练完整过程的扩散预训练模型

请一并复制后边的中文后访问。这里有扩散模型的下载链接，请选择与你的声音编码器对应的版本。下载后将model_0.pt放到logs/44k/diffusion下。

打开命令提示符，执行tensorboard --logdir [你的模型输出路径，如.\logs\44k或.\logs\44k\diffusion]

若想在外部访问，请添加--bind_all参数
在浏览器中访问127.0.0.1:6006

此专栏在CC BY-SA 4.0下提供

【AI变声/翻唱】so-vits-svc指南的评论 (共条)