D3SP个人笔记

项目名称:DDSP-SVC 3.0(DDDSP, D3SP)
项目地址:https://github.com/yxlllc/DDSP-SVC
整合包来源:https://www.bilibili.com/video/BV1rs4y1Q7BQ
使用软件
wavmp3cvt:转换格式+合并音频 //很有用
audacity:修音频+双声道转单声道
UVR5:分离伴奏+修复干音 //UVR5,谢谢你
FanselineVisualizer:音频可视化 BV1AD4y1D7fd //超棒!
PR::)
训练素材信息
--
格式:wav,时长3~15S,44100Hz,PCM-16,单声道(划重点)
总时长:19分钟
切片数量:180(丢弃短音)
验证集数量:3
录制软件:华为录音机(使用人声增强)
//合并-切片-粗选-再合并-uvr5-单声道-再切片
模型信息
--
编码器:contentvec(768l12)
f0提取算法:parselmouth
DDSP模型:424000步,loss值0.843
扩散模型:3500步,loss值0.015
//主观感受是contentvec(768l12) +C的收敛效果似乎不如+P
//原2h素材收敛有问题,减少后效果提升
UVR5:推理干声提取参数设置
方法来源:BV1rs4y1Q7BQ
--
去伴奏
1. Process Method: Demucs
2. Stem: Vocals
3. Demucs Model: v3|UVR-Model-1
去混响
1.输入纯人声素材
2. Process Method: VR Architecture
3. Window Size: 320
4. Aggression: 10
5. VR Model: 5_HP_Karaoke_UVR
6.Vocals Only
//对推理干音进行切片处理时不要丢弃短音(划重点)
//工作量无端增加
推理参数
--
主观的常用设置:
f0提取算法:crepe
采样方式:dpm-solver
浅扩散步数:20
扩散加速倍数:10
响应阈值:-60
主观的其他问题解决方法:
①高音出错/读音变调:
修改f0提取算法(dio或harvest)
//主观感受是harvest更还原读音,dio夹在harvest和crepe中间
②出现噪音:
下调浅扩散步数(5或10)
修改f0提取算法(dio或harvest)
//总结:好耶!ヽ(✿゚▽゚)ノ