AI声音克隆又进化了,10分钟学会声音克隆!一键启动包发布!

搞了一晚上,终于跑起来了。
简单总结一下我干了啥:
- 安装自己显卡对应版本的cuda
- 解决报错1:F:\Code\xxx ... ?????
执行以下两条命令(新版启动包可能没这个问题)
.\venv\python.exe -m pip uninstall demucs
.\venv\python.exe -m pip install demucs -i https://pypi.tuna.tsinghua.edu.cn/simple
- 解决报错2:找不到文件路径

需要安装ffmpeg并配置到系统环境变量中
- 解决报错3:页面文件太小,无法完成操作
修改虚拟内存大小,可以百度搜,修改后重启电脑。
展示一下训练截图

在写这个笔记的过程中100个epochs就结束了(up说下面这个提示是正常情况,不算报错)


然后回到根目录运行:预测一键启动.bat
发现一个新问题config找不到
- 解决报错4:主要是修改了
--config_dir 后面的路径
修改后的文件:
@echo off
set path=.\venv\Scripts;.\venv;%path%
::.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json --share False
.\venv\python.exe VC_inference.py --model_dir ./OUTPUT_MODEL/G_latest.pth --config_dir ./configs/modified_finetune_speaker.json
--share False
pause
修改完成后,再次运行,就可以啦

PS:机器是4060 8GB,这个是临时录的5分钟语音,在small模型下训练了100个epochs的效果,加载上模型后,生成30秒的语音只要2秒不到,非常快。不过效果嘛,只能说是能听懂你在说啥,不像人类的声音,回头换medium重新训练一下