so-vits-4.1 入门学习记录(一)
最近研究了很多关于AI【创作】方面的技术,感觉还是很有意思的。但是对于部分小伙伴们来说,确实有一定的入门门槛,所以我在此次so-vits篇中记录一些我学习so-vits的过程,想分享给大家,一起学习!
目前了解到的so-vits项目是用于替换人声音色,对,只是改变音色,原始人声的一些特性会被保留,例如颤音,呼气吸气,说话轻重快慢等等。所以so-vits项目更适合用来生成虚拟AI翻唱歌手,或许这个项目本意也是这样。
下面就是入门的记录啦:

克隆源代码(Clone):
源代码使用git分布式版本控制系统,并由GitHub托管,所以大家要学习一定的git使用。
这里我更推荐使用git而非直接下载zip源码包,下面跟着我操作就可以啦。
安装git工具
For Windows:
https://git-scm.com/。
下载Git二进制安装包。因为看到这里的大家也基本上很少用到Git,所以安装过程可以直接下一步就好。
For Debian:
等待安装完成,之后打开bash shell terminal(Linux)或者Powershell/CMD(Windows),键入以下命令来克隆源代码:
克隆结束后cd到代码目录,然后可以更具需要检查分支或者切换分支(branch):
这里就直接cd到代码目录就可以了,Default branch就是4.1-stable

关于Python版本的选择,此项目目前只能使用3.8版本(建议3.8.9或3.8.10),否则会代码和依赖库包错
安装python强烈安利pyenv,对于python版本控制很方便。
支持Win/Linux。

安装依赖环境(requirements)
此部分对于网络要求比较高,建议优化网络环境,否则下载很慢。
修改requirements_win.txt文件:
将文本中最后一行:faiss改为faiss-cpu。
因为在高版本python,不再有faiss依赖。
执行:
等待依赖库安装完毕。
此步骤可能会依赖安装报错,部分情况是网络环境导致。

关于CUDA加速(可选)
以Cuda 11.7为例
Cuda下载归档处:https://developer.nvidia.com/cuda-toolkit-archive
Cuda 11.7:https://developer.nvidia.com/cuda-11-7-1-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local
二进制文件下载完成后点击安装即可(无脑下一步)
接着回到terminal或Powershell/CMD,键入如下命令:
以完成cuda依赖库安装。
此处教程经供参考,因为鸽子的电脑很烂,并不支持CUDA

使用contentvec作为声音编码器(推荐)
可直接通过浏览器下载:https://ibm.ent.box.com/s/z1wgl1stco8ffooyatzdwsqn2psd9lrr
下载完成后移动到:so-vits-svc/pretrain目录下
或者(CLI):

启动项目(webUI.py)
确保上述步骤完成之后
执行:
等待片刻后会出现

这里就顺利完成了整个项目的初始化部署工作。
Running on local URL: http://127.0.0.1:7860,这个就是web网站的地址,用浏览器打开即可


关于其他使用方式(CLI)
可前往项目README.md,作者有很详细的解释:
https://github.com/svc-develop-team/so-vits-svc/blob/4.1-Stable/README_zh_CN.md

至此,初步工作已经完成,顺利启动了项目,对于后期的模型训练以及推理,我们要!#…@%!(咕咕咕咕咕)
当然,我有注意到很多大佬提供了快速一键部署包,很简单也好用,但是我为了学习这个项目,也是为了进一步了解这个项目的细节,所以选择了从零初始化项目,这里向大家分享一点点学习记录。
对于这个项目我还很陌生,或许有错误的学习,也谢谢大家能够指正。
感谢能看到这里的大家!!
欢迎大家访问我的Github:https://github.com/AutoCONFIG