对于sovits和diff-svc数据集制作以及推理方面的心得
SVC(音色转换)模型的炼丹教程其实站内外都有,尤其是站内MasterSatori佬当初对我有过不少指导,在此表示感谢!我这里就讲下数据集制作以及推理方面的心得。
数据集制作:
无论sovits还是diff-svc,为了获得比较好的效果都推荐1000条以上的语音或2小时以上的时长(单声道wav格式并且采样率尽可能高),单条语音尽量控制在2-15s左右的长度,长音频切割可使用自动切片机(audio-slicerUI:https://github.com/flutydeer/audio-slicer),假如游戏角色语音过少找代餐是不错的选择,数据集音频质量>音频数量。
语音尽量去除底噪和混响,使用歌声作为数据集需要考虑混响的问题,否则推理出来可能会自带噪声和混响(惨痛教训),降噪我用的是AU。直播录制的音频需要去除BGM和杂音,如果数据集来源并不统一可能需要使用AU进行响度匹配。
另外要是您不能保证数据集均处在一个比较高的质量,训练sovits模型是更好的选择,(diff-svc的上限虽然更高,但对数据集质量要求也更高)。
训练多人模型存在音色泄露的风险,但模型可能会获得更好的音域。
推理:
要推理的歌曲需要用到UVR5来分离人声和伴奏,也可结合AU反相去伴奏使用。

分离我是这么做的,先用4_HP-Vocal提取人声后把保存的人声用5_HP-Karaoke再跑一次来获得更干净的人声,分离伴奏就用歌曲单独跑一次5_HP-Karaoke就行。
2.推理时使用GUI会更方便(推荐站内 纳鲁塞-缪-希娜卡纳 大佬的MoeSS和Sovits Gradio),
把分离好的人声丢进去按需调整音高(混音时伴奏也要升降调)推理后保存就行。
3.试听推理好的人声没问题就和伴奏一起丢进AU或其它混音软件进行降噪和添加混响,有需要的可进一步调混音,最后导出保存就完成了。