欢迎光临散文网 会员登陆 & 注册

AI声音克隆又进化了,10分钟学会声音克隆!一键启动包发布!

2023-08-12 00:52 作者:Marig_未知  | 我要投稿

搞了一晚上,终于跑起来了。

简单总结一下我干了啥:

  • 安装自己显卡对应版本的cuda
  • 解决报错1:F:\Code\xxx ... ?????

执行以下两条命令(新版启动包可能没这个问题)

.\venv\python.exe -m pip uninstall demucs


.\venv\python.exe -m pip install demucs -i https://pypi.tuna.tsinghua.edu.cn/simple


  • 解决报错2:找不到文件路径

需要安装ffmpeg并配置到系统环境变量中


  • 解决报错3:页面文件太小,无法完成操作

修改虚拟内存大小,可以百度搜,修改后重启电脑。


展示一下训练截图

在写这个笔记的过程中100个epochs就结束了(up说下面这个提示是正常情况,不算报错)

然后回到根目录运行:预测一键启动.bat

发现一个新问题config找不到


  • 解决报错4:主要是修改了

--config_dir 后面的路径

修改后的文件:

@echo off

set path=.\venv\Scripts;.\venv;%path%

::.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json --share False

.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json

 --share False

pause



修改完成后,再次运行,就可以啦

PS:机器是4060 8GB,这个是临时录的5分钟语音,在small模型下训练了100个epochs的效果,加载上模型后,生成30秒的语音只要2秒不到,非常快。不过效果嘛,只能说是能听懂你在说啥,不像人类的声音,回头换medium重新训练一下

AI声音克隆又进化了,10分钟学会声音克隆!一键启动包发布!的评论 (共 条)

分享到微博请遵守国家法律