基于So-vits的第二次云端训练总结
2023-06-09 15:19 作者:蝙蝠猫BatBattery | 我要投稿
共计250ep(批次数),总计有效步数...忘记了。
每50ep分别试听监控语音和尝试推理 共推理7次后封炉
训练集来自游戏《Vampires' Melody》(吸血鬼的旋律) 夜莱·莱斯特 原cv佐仓杏【截取】
推理集来自歌曲 《十字路口》原歌手洛天依
经检验推理效果良好,无哑音,电音,确认炼成,视频在下面,现总结如下


可能导致本次成功的原因:
1.重回训练集听所有声音 发现分离良好 所有音频均大致不存在明显的回音和其他音素
2.训练集分离的比较干净导致整体训练集质量较高 即便总loss在25%左右 和第一次相近
3.训练集均为女声 不会有太多错误(猜想)
4.训练集元素数量适宜 且没有过度训练 同时成功训练聚合模型
5.推理音频分离的比较干净 从而使模型正确推理
6.将唱歌,说话等元素混合训练 加上良好的编码器和改进过的底膜 使得本次训练效果良好
可能还能改进的方面:
1.在制作训练集过程中分离音频用了太长的时间 这部分可以学习专业软件后更好的分离
2.制作推理集同理
3.训练步数可以稍微多点 试试效果 这次太怕过拟合所以提前封炉了
4.跨语言推理成功 但是由于音域限制(这个确实没办法),可以尝试试试多声线练习(但是有音色泄露风险),以打破音域局限性
5.暑假我试试我自己的声音 不知道能不能行 先试试 这个音色模型我先放在一边 我试试别的不同声线 技术方面挑战一下 要是炸炉了我也会写报告的qwq
总结结束。
这次没有ai图或者loss图 第二次就成功了有点激动 把loss图删了(
