欢迎光临散文网 会员登陆 & 注册

D3SP个人笔记

2023-06-07 22:54 作者:獬豸先生  | 我要投稿

项目名称:DDSP-SVC 3.0(DDDSP, D3SP)

项目地址:https://github.com/yxlllc/DDSP-SVC

整合包来源:https://www.bilibili.com/video/BV1rs4y1Q7BQ


使用软件

wavmp3cvt:转换格式+合并音频  //很有用

audacity:修音频+双声道转单声道

UVR5:分离伴奏+修复干音 //UVR5,谢谢你

FanselineVisualizer:音频可视化  BV1AD4y1D7fd //超棒!

PR::)



训练素材信息

--

格式:wav,时长3~15S,44100Hz,PCM-16,单声道(划重点)

总时长:19分钟

切片数量:180(丢弃短音)

验证集数量:3

录制软件:华为录音机(使用人声增强)

//合并-切片-粗选-再合并-uvr5-单声道-再切片


模型信息

--

 编码器:contentvec(768l12)

f0提取算法:parselmouth

DDSP模型:424000步,loss值0.843

扩散模型:3500步,loss值0.015

//主观感受是contentvec(768l12) +C的收敛效果似乎不如+P

//原2h素材收敛有问题,减少后效果提升



UVR5:推理干声提取参数设置

方法来源:BV1rs4y1Q7BQ

--

去伴奏

1. Process Method: Demucs

2. Stem: Vocals

3. Demucs Model: v3|UVR-Model-1


去混响

1.输入纯人声素材

2. Process Method: VR Architecture

3. Window Size: 320

4. Aggression: 10

5. VR Model: 5_HP_Karaoke_UVR

6.Vocals Only


//对推理干音进行切片处理时不要丢弃短音(划重点)

//工作量无端增加



推理参数

--

主观的常用设置:

f0提取算法:crepe

采样方式:dpm-solver

浅扩散步数:20

扩散加速倍数:10

响应阈值:-60


主观的其他问题解决方法:

①高音出错/读音变调:

修改f0提取算法(dio或harvest)

//主观感受是harvest更还原读音,dio夹在harvest和crepe中间


②出现噪音:

下调浅扩散步数(5或10)

 修改f0提取算法(dio或harvest)


//总结:好耶!ヽ(✿゚▽゚)ノ


D3SP个人笔记的评论 (共 条)

分享到微博请遵守国家法律