个人记录VITS使用问题（先发一些，持续摸索）

2023-02-27 02:30 作者:末夜の十字 0人读过 | 我要投稿

不要感觉配置高就堆batch

之前看教程，别人演示的batch=2，说显存高可以配置高点，我想我的24G显存不能浪费，直接填了12。

在so-vits-svc环境安装和AI训练提供的文档中，up主提到，global-step每1000步存一次，global-step=训练集数 * epoch / batch-size。

训练集数是固定的，batch_size越高，达成同样global-step就需要越多的epoch，在8 batch-size下，我推理1000个global_step用了15分钟，而我换成2 batch-size后，洗个澡出来就7000global-step了，增加了迭代速度可以更容易的分辨出训练结果的好坏。

同时提供一个不确定的观点：数据集少的情况下，batch-size不要调太大。我在看diffusion ai生成图片教程5分20秒时，up主提到过，batch还要根据训练集数量来决策，我是从游戏和官方互动视频提取的音源，数据集不多，加起来不到30分钟，分成10秒片段，也就不到200个，因此我在batch-size=8时，训练到G10000，感觉效果不如batch-size=2时，训练到G7000。
音高的调整

女翻唱男时，音高不变的情况下很难听出是女声，一般会提高3-7个音高。但提高音高后会出现高音嘶哑、破桑唱不出来等情况。

不太懂AU的操作，我能想到的是多推理几种音高，然后用AU合成。

或者可以试试AU的频谱频率显示器（Shift+D），明显的瑕疵一般能在频域内发现，比如有些混音能在低频区发现多一些亮的片段，擦除就能恢复正常；有的是声音频率不对，高频区跑低频区去了，这个我不知道怎么修复。

标签：

个人记录VITS使用问题（先发一些，持续摸索）

个人记录VITS使用问题（先发一些，持续摸索）的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

个人记录VITS使用问题（先发一些，持续摸索）

本文作者的其他文章

个人记录VITS使用问题（先发一些，持续摸索）的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

个人记录VITS使用问题（先发一些，持续摸索）的评论 (共条)