欢迎光临散文网 会员登陆 & 注册

so-vits-svc使用报告

2023-08-12 16:28 作者:在下先通  | 我要投稿

目前我所使用的是羽毛布団的整合包,sovits版本号为4.1。

经过一段时间测试之后,仅对女声(刻晴)的测试总结了一些经验,该报告仅为个人使用纪录。

一、干声的质量对推理的影响最大

干声的声音要清晰透亮。

1. 干声提取问题

首先声音的清晰透亮,意味着干声提取时,不能带有其他的杂音,包括伴奏、较强的混响(但声音也不能太过干燥)、和声等。

干声的提取要根据情况对症下药。目前我主要使用UVR5提取干声,偶尔辅助RipX、RX10以及AU进行降噪。

2. 口胡及发音出错问题

其次是口胡以及发音出错的问题。这是一个很有意思的现象,经过我反复验证测试,发现问题还是出现在干声身上。

2.1 对于仅有个别字发音出错的时候,主要有两种情况。

一个是原曲本身的发音有问题,也许带音乐的时候听着不明显,但单独提取出人声之后会发现发音出错的读音本身带有一定误导倾向,即不够清晰。如我所做的《赤伶》,“乱”字读音错误就是因为发音的误导性。站在人类的角度来说就是“空耳”。

第二种情况没甚么好说,就是干扰,这个干扰可以说是因为噪音,也可以是因为气息不稳。在这里,声音大小的变化以及颤音都归于气息不稳。噪音包括伴奏、其它杂音以及其他人的和声。

2.2 对于大范围的发音出错就更有意思了,问题还是出在“空耳”上面。

这种情况有两种可能,一种还是干声问题,另一种可能与硬件设备有关。硬件设备问题放到后面描述。

大范围的发音出错大概率是因为干声的声音较为沉闷。在频谱图上表现为声音在低频段过于集中。

根据最近的学习总结,我注意到了最重要的四个频段(我并非专业的音乐人,只是为了这个研究进行了粗浅的了解,所以也许描述会有些差异):

200hz附近;

800hz附近;

1000-2000hz附近;

9000-12000hz附近。

前两个为低音频段,后两个为高音。若想让干声的声音变得清晰,就必须使用参数均衡器,我常用的有两种方法。

第一种如图1所示,使用高通滤波器,切掉低音频段,这个范围我一般都调整为大于70,但小于100hz,然后提升200hz附近、2000Hz附近以及10000-12000附近频率的声音大小。

图1 第一种均衡器调整办法

第二种办法则是对症下药,依然是高通滤波器起手,然后适当降低低频段(200hz、800hz)的声音大小然后稍稍提升2000hz的声音大小,大约1、2dB,或者根据需求调整,参数不是死的,最后大幅度提升11000hz到12000hz的声音大小。实际参数以自己听到的情况为准,直到声音变得足够清晰透亮,并大幅降低了AI口胡概率即可(可能并不能完全消除口胡)。

二、硬件可能造成的影响

如果觉得干声已经足够清晰了,但是会莫名其妙口胡,这一点可以说是相当玄学了。我之所以会把矛头指向硬件,原因就是因为我偶尔会用不同的设备进行推理,也有可能不是硬件问题,而是更加玄学的可能?

因为AI的推理主要用到GPU,所以可能出现的问题可能主要出在显卡上,当然也不排除CPU的问题。

我所使用的两台电脑:

一台为台式机,AMD的CPU,搭载2060丐板(不排除矿卡的可能);

另一台为笔记本,Intel的CPU,搭载了4060的显卡。

为保证实验结果的准确性,推理时使用了同一个AI模型,同一个干声文件,设置了相同的推理参数,最后却得到了不同的推理结果。

搭载了4060的笔记本推理结果明显要优于2060的台式机,后者的结果出现了大范围口胡,而前者的声音却很好,只有少量发音出错。真是相当神奇的结果,也许由于时代的原因,4060针对AI算法在硬件上进行了优化,但这也只是猜测。

三、推理参数对推理结果的影响

推理结果不理想,有一部分可以通过调整推理参数解决。

1. 哑音

若使用了F0预测的crepe滤波器依旧出现哑音可适当增大参数,个人经验,0.05或0.06为最佳,或根据实际情况调整,若出现跑调的情况应降低该值。

2. 滑音失败

由于sovits连贯性不好,因此滑音时AI可能会读成另外一个音或是出现怪声。该问题可通过增大浅扩散步数解决。如过去我所作的《岁月神偷》,在浅扩散步数为100时出现了很多怪音。将100增大到350时,得到了意外的结果。但这依然没能彻底解决问题。如“看云淡风轻”,“轻”字在其中一个干声源被拉的很长,AI把“轻”读成了“qiong”。

经过实际测试发现,浅扩散模型的步数并不能设置的过大,尤其是扩散模型训练的不好的时候,步数大反而会起到反效果,增加哑音出现的概率。

3.特征检索模型与聚类模型

考虑到音色还原程度,我更的是使用特征检索模型,该参数0.3和0.5最为合适,过大会导致咬字不清晰。

4. NSF-HIFIGAN增强器

训练数据集较小时开启可以有效提高推理结果的质量,但推理参数对结果影响不大。


so-vits-svc使用报告的评论 (共 条)

分享到微博请遵守国家法律