So-Vits-SVC模型使用教程 (个人简易向)
以下简易教程仅为个人摸索出来的效果较好的使用习惯,请随意修改,改进。
*请在正常人的道德标准内使用模型,禁止使用模型抹黑任何艺人!!!谢谢。
**作品不用注明模型来源。(但艾特我看的话会很开心~)
***如有与非本账号发布的模型联动作品出现,非制作者本意。
官方手册地址:https://www.yuque.com/umoubuton/ueupp5/sdahi7m5m6r0ur1r
需要Windows系统 Mac据说也可以但是我不知道咋搞
手册内含整合包地址,下载并解压。
我自己用的是v1(提取码为g8n4那个),即完整整合包(非增量更新!)如想使用v2增量版整合包,需要按照手册更改config文件。
所以我用的也是笨方法手动复制模型。。
1. 网盘zip里的文件夹们:
1. logs: 用来替换整合包中logs文件夹
文件夹结构(我应该是都放对了,以防万一):
logs
–》44k (44k文件夹里放主模型G_xxxx.pt)
–》diffusion(diffusion文件夹里放扩散模型model_xxxx.pt)
2. configs: 用来替换整合包中configs文件夹
configs --》内含两个配置文件
请严格对应唱歌人的logs和configs文件夹,不可混用,替换歌手时建议先将logs 和 configs 文件夹改成其他名称以防止混淆。例: 改成logs-kaito 和 configs-kaito 然后复制其他歌手的logs和configs文件夹到so-vits-svc文件夹。 (v2好像有更聪明的方法。。)
2. 音源干音:
必须只有干净人声,有和声不太行。推理出来会山路十八弯。
UVR5 推荐提取干音线路(不唯一,仅推荐):以下模型不好下载的话我也可以传个网盘
MDX-Net里先用Kim Vocal2 提取所有人声。此时xx_instrumental 为伴奏,xx_vocal为所有人声。
然后用同样MDX-Net里UVR-MDX-NET Karaoke 2 提取xx_vocal里主唱干音。此时xx_vocal_instrumental为和声, xx_vocal_vocal为推理所需要的干音。
(非必要)使用VR architecture 里 UVR-DeNoise 消除xx_vocal_vocal噪音(因为经常会有电流声)。aggression setting 我一般选2
(非必要)最后根据干音混响程度,使用VR architecture 里 UVR-DeEcho-DeReverb 消混响。 aggression setting 我一般选1
3. 推理:
双击so-vits-svc文件夹里的 启动webui.bat,会弹出一个网页。
选择模型文件。
需要选择主模型、主模型配置文件、扩散模型和扩散模型配置文件。
模型文件有的放了步数不同的两个,效果可能略微不同,请多多尝试。
点击加载模型 文件夹复制位置正确的话So-vits 说话人会出现歌手名。
把准备好的干音拖进框框。
选择是否变调、f0预测器、浅扩散步数(推荐60左右)和音频自动切片 (15)。
f0预测器里Rmvpe音质好,但容易哑音。
Crepe音质一般但高音表现好。
最好两个(或所有预测器)都试一下,然后取长补短拼接一下。
推理音频一首歌时长一般没问题,再长最好剪一下,不然会卡住(我6G显卡)。
推理完记得下载音频
4. 后处理:
(非必要)根据干音和推理结果,可以使用UVR5 VR architecture 里 UVR-DeNoise 处理一下。注意强度,aggression setting 我一般用2。
混响狂魔强烈建议至少加个混响,可以盖住一部分机械音。audacity和audition就可以。看个人接受程度。
把伴奏,和声,处理完的人声合起来就好啦(升降调推理后伴奏和音也要升降调哦)
高级一点的话肥波之类的也可以照着视频教程一通乱搞。常用肥波插件:NS1 Q3 C2 DS L2 具体咋用我也不是很懂。。b站教程很多,有时间可以看看。
差不多就是这些,不知不觉又话痨了很多,有问题请私信,或在模型发布视频下面留言,我看到会尽量帮忙,跟it太相关的我也不太会。模型是我自己氪金炼的,数据收集也用了很久,有人用的话会很开心~
玩耍愉快~
免责声明:本作品仅作为娱乐目的发布,可能造成的后果与使用的音声转换项目的作者、贡献者无关,本视频使用AI合成技术,视频中演唱人声并非歌手本人。

