第一次做AI翻唱终于还是失败了
留档纪念 本来是想趁着人生中最后一个长假做点自己想做又比较折腾的事,于是就想着做赛琳娜AI翻唱,折腾了一周多,最后做出来的效果令人不得不放弃
练了一晚曲线不降反升 声音依然沙哑电流 导致失败的可能原因,数据集质不够高,量不够多,数据集是在游戏里录屏,然后发现声音太小,折腾了很久最后用剪辑软件调大了声音,这种方式得到的音频可能确实质量不高,数量的话,除了游戏语音,还在官方视频里找了带赛琳娜的片段,不过经过UVR5提取人声后大多处理不干净没用上,而我也不知道怎么手动调整。最终的数据集切片后仅196条,总时长16分51,数量实在不多。看到说小样本可以试试RVC,不过视频里讲16系显卡用不了。最后选了So-VITS-SVC云端训练,到这一步就是跟着视频里操作也能遇到各种报错,又折腾了很久找了其他的视频才终于开始训练,不过最终的效果显而易见,一晚上过后相对之前没有丝毫改善,数据集不行练再久也出不了效果的。数据集质量的话,可能试试解包能得到更好的音频,数量不足可能得试试RVC,不过我实在不想折腾了,就当是放弃的借口吧。原以为只要愿意折腾总还是能做出来一点东西,实际操作下来就是因为零基础不停走弯路,浪费大量时间,得到一个很糟糕的效果。 如果有人能看到,那么我留下一点忠告:想要好的效果就别偷懒,每一步都不能偷懒,不会的东西就去学,要学什么现在网络上基本都能找到教程的,但凡偷懒一点都可能导致最终效果大打折扣,甚至像我一样失败。取乎其上,得乎其中;取乎其中,得乎其下;取乎其下,则无所得矣。
(留了两个模型作为纪念) 顺便提一句,音源是《战双:帕弥什》的赛琳娜,原本想转换的歌曲是《Hades》Good Riddance 这里也推荐一下Good Riddance,真的很好听,站内有投《Hades》OST的