AI歌手,主流SVC项目效果对比
电脑配置:
操作系统名称 Microsoft Windows 11 家庭中文版
处理器 AMD Ryzen 7 5800H with Radeon Graphics
显卡 RTX 3060 6G
内存 DDR4 3200 24G
一共测试了3个项目,RVC,DiffusionSVC,DDSP-SVC
sovits-svc-4.1由于显存不够,没有更好的硬件,暂时没有进行测试
1.RVC (618版本)
优点:
【训练要求】配置要求中等,对数据集大小要求低,10分钟数据也可训练
【合成效果】没有音域限制,效果中规中矩,歌声转换还行
缺点:
【训练要求】数据集需人声混响处理干净,不然会出现电音训练失败。
【合成效果】咬字不清,语音变声会出现很多错误发音,比如yi ou之类的会发e,经测试,更换或增大数据集并不能解决此类问题
有时会出现声音感情很奇怪的现象,比如输入音很正常,但合成出来会很凶(通过筛选数据集感情又会变化),貌似是模型泛化能力不够造成的
索引会占用大量CPU,且在小数据集训练的模型上无法完全杜绝音色泄露
2.DiffusionSVC(1.0)(naive+浅扩散100step)
优点:
【训练要求】配置要求低,数据集可带混响
【合成效果】中低音合成效果非常棒,咬字清晰,感情不变,无音色泄露,且推理性能好,占电脑资源少。
缺点:有音域限制,对于F5以上高音的合成效果是【很虚,音量很小】
3.DDSP-SVC(3.0)
3.1【DDSP+预训练声码器增强器】
【训练要求】配置要求低,2G显存都能跑,数据集可带混响
【合成效果】
优点:在使用预训练声码器增强器的情况下,合成效果略微差于DiffusionSVC,好于RVC
有音域限制,但是推理时可以添加-eak <enhancer_adaptive_key (semitones)>参数,将增强器适配于更高的音域
且推理性能好,占电脑资源少
缺点:咬字较DiffusionSVC稍显不清晰,附带一点电音
3.2【DDSP + Diff-SVC 重构版】
【合成效果】有音域限制,无法使用-eak参数 适配更高音域,其他特点与(DDSP+预训练声码器)增强器差不多