欢迎光临散文网会员登陆 & 注册

【AI塔菲2.0】永雏塔菲歌声转换模型2.0版本模型发布

2022-12-03 12:33 作者:极黑的绅士君 0人读过 | 我要投稿

非常感谢大家对于AI塔菲2.0的关注和支持！看到AI塔菲后你是否创意迸发，也想要尝试歌声转换模型，却又担心不熟悉深度学习或电脑配置跟不上？不用烦恼，本文将手把手教你如何玩转AI塔菲模型！

什么？你还不知道什么是歌声转换模型？那就点开下方视频看看吧！

所谓AI歌声转换，是利用模型将源音频的歌声洗为永雏塔菲的音色，保留歌词，唱法等细节，相比调音来说AI转换更加自然，也更快（只需5分钟！）。

准备工作

如果你有一个能访问谷歌服务的网络环境，那太好了！利用Google Colab里的GPU运行时可以在任何设备上进行模型推理，你所有要做的只有准备一个无伴奏的纯干声音频文件，将其丢入Colab即可。
如果你无法访问谷歌服务，但你有一块超过8GB显存，拥有cuda加速的显卡（AMD：那我呢），你也可以在你的电脑上进行推理，这要求你拥有能够配置python运行环境的能力。
如果你什么都没有，那UP这里还是建议想点办法改善自己的网络环境，相比来说是成本最低，也是最方便的解决方案。因此本文将以Google Colab为例，展示如何快速使用AI塔菲模型。

使用模型

如何获取纯净干声不在本文的讨论范围内，假设你已经拥有了一个纯干声，采样率高于16KHZ的wav格式音频文件，使用下方链接进入Google Colab。

https://colab.research.google.com/drive/1ZTT2XBZKOmfef91-WfvQgww3oUI9x5fD

登录你的谷歌账号，只需按顺序点击单元格里的执行按钮即可快速在谷歌的虚拟机（GPU运行时）中搭建运行环境。

一个单元格和其中的执行按钮

执行到上传源音频阶段时，请点击网页左侧的文件夹图标，打开文件目录，并将你准备好的干声音频文件传入Colab的raw文件夹中（如果直接上传不稳定你也可以先传入Google Drive）。

直接拖到raw文件夹里就好

声音转换阶段，填写需要升降的半音（视情况而定，想要更夹一点可以考虑升一点音高，多听多试），并填入你上传的文件名即可开始模型推理。

填入刚刚上传的文件名

一首5分钟的歌推理约需3分钟，推理完成后在results文件夹中即可看到输出的文件。你也可以执行最后一个单元格进行在线预览。

大功告成

注意事项

本模型由@14-26AA的diff-svc项目训练而来，因此同样遵循原项目的许可：

本项目是基于学术交流目的建立，并非为生产环境准备，不对由此项目模型产生的任何声音的版权问题负责。
如将本仓库代码二次分发，或将由此项目产出的任何结果公开发表(包括但不限于视频网站投稿)，请注明原作者及代码来源(此仓库)。
如果将此项目用于任何其他企划，请提前联系并告知本仓库作者,十分感谢。

哦对了，如果你想要在自己的电脑上进行模型推理，想要下载模型，或者在使用过程中有任何问题，欢迎点击下方链接加入QQ频道-永雏塔菲！

https://pd.qq.com/s/g72sabmlu

这下小团体真拉你了

标签：vtb 永雏塔菲 vtuber taffy 歌声转换 diff-svc AI 语音合成深度学习虚拟UP主

【AI塔菲2.0】永雏塔菲歌声转换模型2.0版本模型发布的评论 (共条)