欢迎光临散文网 会员登陆 & 注册

基于So-vits的第二次云端训练总结

2023-06-09 15:19 作者:蝙蝠猫BatBattery  | 我要投稿

共计250ep(批次数),总计有效步数...忘记了。

每50ep分别试听监控语音和尝试推理 共推理7次后封炉

训练集来自游戏《Vampires' Melody》(吸血鬼的旋律) 夜莱·莱斯特 原cv佐仓杏【截取】

推理集来自歌曲 《十字路口》原歌手洛天依

经检验推理效果良好,无哑音,电音,确认炼成,视频在下面,现总结如下


可能导致本次成功的原因:

1.重回训练集听所有声音 发现分离良好 所有音频均大致不存在明显的回音和其他音素

2.训练集分离的比较干净导致整体训练集质量较高 即便总loss在25%左右 和第一次相近

3.训练集均为女声  不会有太多错误(猜想)

4.训练集元素数量适宜 且没有过度训练 同时成功训练聚合模型

5.推理音频分离的比较干净 从而使模型正确推理

6.将唱歌,说话等元素混合训练 加上良好的编码器和改进过的底膜 使得本次训练效果良好

可能还能改进的方面:

1.在制作训练集过程中分离音频用了太长的时间 这部分可以学习专业软件后更好的分离

2.制作推理集同理

3.训练步数可以稍微多点 试试效果 这次太怕过拟合所以提前封炉了

4.跨语言推理成功 但是由于音域限制(这个确实没办法),可以尝试试试多声线练习(但是有音色泄露风险),以打破音域局限性

5.暑假我试试我自己的声音 不知道能不能行 先试试 这个音色模型我先放在一边 我试试别的不同声线 技术方面挑战一下 要是炸炉了我也会写报告的qwq


总结结束。


这次没有ai图或者loss图 第二次就成功了有点激动 把loss图删了(

水一张图 这个是第一次炸炉的gklloss图


基于So-vits的第二次云端训练总结的评论 (共 条)

分享到微博请遵守国家法律