欢迎光临散文网 会员登陆 & 注册

基于So-vits的第一次云端训练总结

2023-06-08 18:24 作者:蝙蝠猫BatBattery  | 我要投稿

共计1500ep(批次数),总计有效步数180000。

在200ep,400ep,600ep,800ep,1000ep,1200ep,1400ep,1500ep分别试听监控语音和尝试推理 共推理12次


训练集来自游戏《赛博朋克2077》角色 强尼 银手(英配)原cv里维斯【截取】

推理集来自歌曲《Alone》原歌手Alan Walker【翻唱】


经检验推理效果不佳,多哑音,电音,确认炸炉,现总结如下,


出现的问题:

1.重新回去听训练集所有音频 发现音频大多原先就是沙哑配音 严重怀疑此原因(声音不清晰饱满导致)

2.训练集所有音频质量不高,有些有回音,有些有和声,严重影响训练质量

3.学习率 超参数设置不对导致(此原因为猜想 对本次训练没有太大关系)

4.推理集是女生唱的 音高较高,而强尼的声音是男声 非常低沉,模型无法正确推理(其实男生唱的歌也试过了也不行)

5.推理集音频质量不高,推理时池化无效

**6.过度训练模型 造成过拟合 从而导致炸炉

*7.训练模型时训练集元素过少

8.聚合模型和本地云端推理问题(猜想)


可能解决的办法:

1->4+2.更换模型 尝试换成女生的音频模型

2->2+1.改善模型质量,用工具将回声和声完全抠除 避免影响训练

3->3+7.加角色音频元素 至1k及以上

4->4+5.同2 只不过是推理集音频抠干净

5->6+8.避免过多训练模型 每150ep需要验证一次后重新开始训练 推理尝试在本地运行(猜想)

补充:将唱歌和说话语音揉在一起训练 以显示最好训练结果


总结结束。

最后,训练集是什么语种就尽量推理也用此语种,除非训练结果真的很出色的话。

在训练质量得不到保证的情况下,跨语种推理可能会导致非常混沌和生草的效果!

总loss不尽人意


基于So-vits的第一次云端训练总结的评论 (共 条)

分享到微博请遵守国家法律