基于So-vits的第二次云端训练总结

2023-06-09 15:19 作者:蝙蝠猫BatBattery 0人读过 | 我要投稿

共计250ep（批次数），总计有效步数...忘记了。

每50ep分别试听监控语音和尝试推理共推理7次后封炉

训练集来自游戏《Vampires' Melody》(吸血鬼的旋律) 夜莱·莱斯特原cv佐仓杏【截取】

推理集来自歌曲《十字路口》原歌手洛天依

经检验推理效果良好，无哑音，电音，确认炼成，视频在下面，现总结如下

可能导致本次成功的原因：

1.重回训练集听所有声音发现分离良好所有音频均大致不存在明显的回音和其他音素

2.训练集分离的比较干净导致整体训练集质量较高即便总loss在25%左右和第一次相近

3.训练集均为女声不会有太多错误（猜想）

4.训练集元素数量适宜且没有过度训练同时成功训练聚合模型

5.推理音频分离的比较干净从而使模型正确推理

6.将唱歌，说话等元素混合训练加上良好的编码器和改进过的底膜使得本次训练效果良好

可能还能改进的方面：

1.在制作训练集过程中分离音频用了太长的时间这部分可以学习专业软件后更好的分离

2.制作推理集同理

3.训练步数可以稍微多点试试效果这次太怕过拟合所以提前封炉了

4.跨语言推理成功但是由于音域限制（这个确实没办法），可以尝试试试多声线练习（但是有音色泄露风险），以打破音域局限性

5.暑假我试试我自己的声音不知道能不能行先试试这个音色模型我先放在一边我试试别的不同声线技术方面挑战一下要是炸炉了我也会写报告的qwq

总结结束。

这次没有ai图或者loss图第二次就成功了有点激动把loss图删了（

基于So-vits的第二次云端训练总结的评论 (共条)