暗黑档案X嘻哈野史——关于So-VITS 项目的初步研究感悟(非技术向只是吐槽)

So-VITS 项目是关于AI变声的项目:https://github.com/topics/so-vits-svc
Github 上目前有一个以"So-VITS-SVC 5.0"命名的项目。虽然叫这个名字,但这个项目是由爱好者自行维护的一个仓库,并不是 So-VITS 的官方后续版本。本整合包将只更新由 So-VITS 社区官方维护的版本(即 So-VITS-SVC 4.1),如需尝试 So-VITS 5.0,请自行前往该项目仓库部署,勿与本整合包及 So-VITS 4.1 项目混淆。

未经授权同意,禁止在音视频网站发布的作品中标注项目仓库地址、仓库作者、贡献者、整合包作者的信息。
必须在作品中标注免责声明,免去仓库作者、贡献者、整合包作者对该作品一切后果的责任。
无论以任何形式二次发布基于该项目的软件,都必须同时开放源代码。

我今天尝试用这款软件去写植物大战僵尸花园战争的人物替换模型
但是当我初步使用这个AI版本的时候发现TM的配置要求真高,虚拟内存调到32G他妈的居然还不够用

有时候群友这边就会出现这种炸现存的BUG,明明显卡有24GB的显存

这位有钱的主,一块系数的16t,最起码1000块钱,我都不知道该吐槽啥了。这尼玛是服务器吧。


所以我在做之前我看了看自己的电脑配置,沃日还是算了,因为研究这个 实在是过于头疼了。再加上4.1我第一次找笔记本做。

比如训练云宝(小马宝莉动画的人物)的模型,看到这的时候我傻眼了。

推演半分钟的瞬间多了4GB显存,然后卡在21GB
21.4GB显存了,玩什么大型游戏其实也是够了,但是研究STV模型远远不够

让我无力的事情是,B站这块的教学视频寥寥无几

所以如果做这类的视频可能很有难度
如果有谁对植物大战僵尸系列感兴趣的可以一起研究
我混过FNF社区所以我能找到豌豆射手的音源,这一块是没问题的。关键在于外部迁移模型,数据处理,音源伴奏分离了。

纯人声,无伴奏、底噪、和声、混响等
WAV 格式,44100 hz,16 bit
整合包中预装了 FFmpeg,因此即便不是 44100 hz, 16 bit 的 WAV 文件也可以上传。如果在推理时遇到 FFmpeg 相关的错误,请重启 WebUI 后再次尝试,或手动使用音频处理软件转换为正确的格式
建议你的内存条64G再说吧,玩这个玩意儿感觉比玩AE离谱多了。