欢迎光临散文网 会员登陆 & 注册

暗黑档案X嘻哈野史——关于So-VITS 项目的初步研究感悟(非技术向只是吐槽)

2023-09-05 16:40 作者:嘻哈宙帝  | 我要投稿

So-VITS 项目是关于AI变声的项目:https://github.com/topics/so-vits-svc

Github 上目前有一个以"So-VITS-SVC 5.0"命名的项目。虽然叫这个名字,但这个项目是由爱好者自行维护的一个仓库,并不是 So-VITS 的官方后续版本。本整合包将只更新由 So-VITS 社区官方维护的版本(即 So-VITS-SVC 4.1),如需尝试 So-VITS 5.0,请自行前往该项目仓库部署,勿与本整合包及 So-VITS 4.1 项目混淆。


  1. 未经授权同意,禁止在音视频网站发布的作品中标注项目仓库地址、仓库作者、贡献者、整合包作者的信息。

  2. 必须在作品中标注免责声明,免去仓库作者、贡献者、整合包作者对该作品一切后果的责任。

  3. 无论以任何形式二次发布基于该项目的软件,都必须同时开放源代码。

我今天尝试用这款软件去写植物大战僵尸花园战争的人物替换模型

但是当我初步使用这个AI版本的时候发现TM的配置要求真高,虚拟内存调到32G他妈的居然还不够用

训练到八百步的时候突然炸了。批量大小6,学习率0.0001

有时候群友这边就会出现这种炸现存的BUG,明明显卡有24GB的显存

这位有钱的主,一块系数的16t,最起码1000块钱,我都不知道该吐槽啥了。这尼玛是服务器吧。

无力吐槽

所以我在做之前我看了看自己的电脑配置,沃日还是算了,因为研究这个 实在是过于头疼了。再加上4.1我第一次找笔记本做。

比如训练云宝(小马宝莉动画的人物)的模型,看到这的时候我傻眼了。

推演半分钟的瞬间多了4GB显存,然后卡在21GB
21.4GB显存了,玩什么大型游戏其实也是够了,但是研究STV模型远远不够

让我无力的事情是,B站这块的教学视频寥寥无几

所以如果做这类的视频可能很有难度

如果有谁对植物大战僵尸系列感兴趣的可以一起研究

我混过FNF社区所以我能找到豌豆射手的音源,这一块是没问题的。关键在于外部迁移模型,数据处理,音源伴奏分离了。


  • 纯人声,无伴奏、底噪、和声、混响等

  • WAV 格式,44100 hz,16 bit

整合包中预装了 FFmpeg,因此即便不是 44100 hz, 16 bit 的 WAV 文件也可以上传。如果在推理时遇到 FFmpeg 相关的错误,请重启 WebUI 后再次尝试,或手动使用音频处理软件转换为正确的格式

建议你的内存条64G再说吧,玩这个玩意儿感觉比玩AE离谱多了。


暗黑档案X嘻哈野史——关于So-VITS 项目的初步研究感悟(非技术向只是吐槽)的评论 (共 条)

分享到微博请遵守国家法律