so-vitus-suv训练ai晓美焰之遥小记
之前发布的视频是第一代晓美焰之遥,是喂了魔法记录里面4个形态的晓美焰语音集炼出来的,自我感觉质量一般,为了排除训练数据集的影响,我解包拿到了psp携带版魔法少女小圆游戏的语音集,平均五色和qb每人有三千多条语音,且都是纯净人声的高质量语音。于是在第一次尝试基础之上继续尝试炼ai模型,在坏炉一次之后,产出了第三代ai晓美焰之遥并玩了几天。 这次的尝试主要遇到的问题是: 1:音域窄 虽然数据集是psp游戏解包拿到的很高质量的纯净人声,但是架不住晓美焰本身的音域就窄,这还是算上了游戏里放开手脚的斋藤千和配了单条最长达二十一秒的哭唧唧语音和破音大喊“不要!”的名场面。 (我没去除这些语音,因为正常的语音集数量远大于这些特殊情况,我塞进炉的锻材有纯纯的60分钟语音集) 音域窄的话就不适合女高音,但是在女中音和低音上表现还行,用于对话还能满足需求,用于唱歌就容易破声。 2:难以提取音乐的纯净人声部分 基于现阶段的so-vits-svc项目,炼出来的ai模型在推理(让ai唱歌)阶段,对输入音频的人声纯净程度要求较高,不能有bgm,不能有和声或者混响,否则模型识别会出问题,输出明显痰音和电子音,折磨你的耳机。 去除bgm问题容易解决,但是要去除和声或者混响就困难了,虽然现在也有基于深度学习的uvr5可以简单处理,但是效果并不理想,或许有使用au进行调音手动消除混响的可能,但是很遗憾我不会…… 如何预处理输入音频以获得优质人声就像河豚师傅处理胆囊一样,这里才是真正见证技术的地方。 在尝试五花八门的方法之后,现阶段可选的手段主要为以下几种: 一:在网路上找到这首歌的优质清唱版本 一:找管人唱这首歌的视频(无和声混响即可) 四:尝试uvr5简单处理的效果 五:使用au处理音效 一:自己唱(我没尝试过) 四:换一首别的歌(也就是放弃) 经测试,第一种效果最好,这种情况下还不行就只能是你模型的问题。 第二种其次,分具体情况讨论,一般都是开着伴奏自己唱的可用,直播录像也不错,一般直播的时候不会有后期制作的多重唱或者和声效果,开着ktv混响的就算了…… 用到第三第四种措施基本你这歌很难处理得了,除非它本身就没有混响或和声,只是人声+bgm。 最后一项对问题的解决效率是100%。 总结: 诚然晓美焰之遥的音域受到天生限制,但是在实际操作中,最影响最终效果的还是推理阶段的输入音频预处理,然而目前阶段并没有什么特别简单又有效而且高质量的方法可以把普通音乐处理成纯净的人声,所以结果就是ai能唱的歌其实不多,主要原因就是这歌好不好做,或者说网上有没有纯净人声版本的音频可用。 最后是经验教训: 一次训练一个音色就够了,炼多了都是坏胚(😭)