【AI翻唱/变声/整合包】有张N卡就能跑!媲美So-VITS却不吃配置,全新的D

前言
AI变声项目:DDSP-SVC。3.0版本转换效果大大提升!低配高质量。只要有一张2G以上显存的N卡,就可以跑训练。在原有的基础上加入浅扩散机制。将DDSP输出的质量较低的音频的梅尔图谱输入扩散模型进行前扩散处理,输出一个梅尔图谱,并通过声码器转换成高质量的音频。

说明
DDSP的最大优点在于其较快的训练和推理速度和极低的显卡要求。训练时间仅需要两个小时以内。推理速度支持实时变声。
DDSP3.0支持多编码器的训练选项,可以在音色还原和咬字清晰之间,选择适合你需求的编码器进行训练,做到非实时变声(翻唱和实时变声的同时兼顾)
工作流
准备DDSP的数据集:一到两个小时的干净人声,最低不要低于30分钟。推荐使用UVR5这个软件,可以做到伴奏和人声分离。

使用方式:上传音频——选择输出目录——设置处理参数

数据集的格式必须是.wav格式,文件名只能是英文。Up主做了一个智能音频切片工具,可以一键制作符合要求的数据集,确保不会出现过长或者过短的音频。
启动WebUI,梯子和插件关掉。
点击智能音频切片选项卡——将目录路径复制粘贴——加载原始音频——选择输出目录——开始切片——检查最短的音频,3秒到15秒内事比较好的时长范围。


接下来我们只需要把所有的这些音频切片给它移动到整合包目录底下的这个位置:.\data\train\audio

从数据集里面挑选一些音频作为验证集。
数据集合验证集的比差不多是100:1,质量越高越,验证集音频做好不要超过10条。验证集放到这个目录底下:.\data\val\audio

不想手动挑的话,选择巡礼选项卡里面的“一键划分数据集”

检查目录,数据集制作好后,准备训练。
训练开始前,要先选择一个特征编码器和f0提取算法。

接着点击数据预处理,监控输出信息,进度条跑满之后,预处理就完成了
DDSP的完整推理过程需要训练两个模型,分别是DDSP的模型和扩散模型。
不开数据缓存的情况下,batch size设置为64的时候仅仅占用了2G多一点的显存。1个小时的数据集开了GPU缓存后,占用了6G显存。
扩散模型的浮点类型,如果显卡支持,建议使用bf16来训练。
设置完之后,点击“写入配置文件”。点击当前的训练进度,第一次训练点击从头开始训练就可以。

终端里面跳出某一行的时候

就可以打开transboard
这里边有两个选项卡,一个是train loss,一个是validation loss,把smoothing拉高一点
loss会收敛到一个值,不再下降,此时就可以在训练终端里按下Ctrl+C,来中断训练。
推理

推荐同时加载两个模型进行推理。

选择完了模型之后,就可以上传干声音频,参数可以保持默认。点击音频转换。

终端的进度条走完之后,推理就完成了。
有时候会发现某些音变得很哑,一个可能是音高超出了模型能唱的一个音域范围,另一种原因是f0算法提取了错误的音高,可以通过更换提取算法来尝试解决。
浅扩散步数越高,转换出来的音色就越接近扩散模型的音色。
