欢迎光临散文网 会员登陆 & 注册

个人记录VITS使用问题(先发一些,持续摸索)

2023-02-27 02:30 作者:末夜の十字  | 我要投稿
  1. 不要感觉配置高就堆batch

    之前看教程,别人演示的batch=2,说显存高可以配置高点,我想我的24G显存不能浪费,直接填了12。

    so-vits-svc环境安装和AI训练提供的文档中,up主提到,global-step每1000步存一次,global-step=训练集数 * epoch / batch-size。

    训练集数是固定的,batch_size越高,达成同样global-step就需要越多的epoch,在8 batch-size下,我推理1000个global_step用了15分钟,而我换成2 batch-size后,洗个澡出来就7000global-step了,增加了迭代速度可以更容易的分辨出训练结果的好坏。

    同时提供一个不确定的观点:数据集少的情况下,batch-size不要调太大。我在看diffusion ai生成图片教程5分20秒时,up主提到过,batch还要根据训练集数量来决策,我是从游戏和官方互动视频提取的音源,数据集不多,加起来不到30分钟,分成10秒片段,也就不到200个,因此我在batch-size=8时,训练到G10000,感觉效果不如batch-size=2时,训练到G7000。

  2. 音高的调整

    女翻唱男时,音高不变的情况下很难听出是女声,一般会提高3-7个音高。但提高音高后会出现高音嘶哑、破桑唱不出来等情况。

    不太懂AU的操作,我能想到的是多推理几种音高,然后用AU合成。

    或者可以试试AU的频谱频率显示器(Shift+D),明显的瑕疵一般能在频域内发现,比如有些混音能在低频区发现多一些亮的片段,擦除就能恢复正常;有的是声音频率不对,高频区跑低频区去了,这个我不知道怎么修复。


个人记录VITS使用问题(先发一些,持续摸索)的评论 (共 条)

分享到微博请遵守国家法律