【so-vits-svc】手把手教你老婆唱歌

我的实践记录(详细见http://wangc.site/cbrain/share?nodeid=7d0a2650b37ca9db)
- 模型:so-vits-svc
- 云平台:AutoDL-品质GPU租用平台-租GPU就上AutoDL
- A5000的一小时1.3元(2023年4月28日)
- MP3转WAV - 在线转换音频文件 (aconvert.com)
实践
- 训练语料:录制清唱音频800+条(每个10~20秒)
- 推理语料:中文干声 | 我爱REMIX (woairemix.com),用插件下载试听片段
- 模型训练与推理:
- 800条语料,训练一晚上,10个小时,到了36000步(后硬盘满了停了)
- step:10000之后比较了下没太大差别
- key:音高影响较大,调整到适合自己音域的,推理出的音色才更像
- slice_db:差别不大
- 推理材料:推理材料的质量,影响还是比较大的,以上收集的都是分离出的干声,有些不太干净,如果能有专门录制的清场会更好;另外和歌手因素关系也很大,唱法技巧,咬字发声,个人特点很鲜明的,如果只是迁移下音色,那么还是会很像原素材。
- 最后发现影响最大的竟然是 音频格式?下载的mp3效果很差,自动生成出的flac格式效果就比较好
成果
- 2023年4月30日
- 成品:曾经的你,我的名字,雅俗共赏
- 其他不行主要是有好多“爆音”的地方,另外像周杰伦、林俊杰个人特点很突出的,出来效果还是有强烈的原曲风格