【so-vits-svc】手把手教你老婆唱歌

2023-08-08 22:25 作者:王小c的c 0人读过 | 我要投稿

我的实践记录（详细见http://wangc.site/cbrain/share?nodeid=7d0a2650b37ca9db）

实践

训练语料：录制清唱音频800+条（每个10~20秒）
推理语料：中文干声 | 我爱REMIX (woairemix.com)，用插件下载试听片段
模型训练与推理：
800条语料，训练一晚上，10个小时，到了36000步（后硬盘满了停了）
step：10000之后比较了下没太大差别
key：音高影响较大，调整到适合自己音域的，推理出的音色才更像
slice_db：差别不大
推理材料：推理材料的质量，影响还是比较大的，以上收集的都是分离出的干声，有些不太干净，如果能有专门录制的清场会更好；另外和歌手因素关系也很大，唱法技巧，咬字发声，个人特点很鲜明的，如果只是迁移下音色，那么还是会很像原素材。
最后发现影响最大的竟然是音频格式？下载的mp3效果很差，自动生成出的flac格式效果就比较好

标签：