欢迎光临散文网 会员登陆 & 注册

声音克隆在问界车机上的应用

2023-08-11 00:46 作者:出云呢  | 我要投稿

问界车机上的小艺默认是支持训练自己的声音作为语音交互的,就是在车机的小艺设置中按照他的要求读指定的15句话,然后再华为云训练20来分钟就出成果了。但是华为团队其实不懂车友的需求,我们需要的是大嘴的声音,毕竟只有大嘴才能让我们欢乐。。。

作为一个资深的CTRL+CV工程师,对于没有大嘴的声音是不能忍的,于是一个想法就诞生了,用声音克隆的方式让大嘴给我们读者15句话。

第一步:环境搭建

我是在WSL中搭建的。

首先需要装CUDA,先检查下自己的显卡驱动,CUDA版本,在NVDIA的驱动面板中:

然后在developer.nvidia.com/cuda-toolkit这个地址去找对应版本的即可。我是12.2,因此下面的MD文档以12.2为例


第二步:依赖安装

然后照着大佬的视频安装相关依赖,当然你也可以和大佬一样用云,只是我用的本地部署。

视频地址:KanTTS中文声音克隆首发!训练5分钟,使用不限时!AI快速拟声,一键训练和部署的详细教程,快来试试吧,看笔记本即可

当然更建议阅读达摩官方的文档,地址是:SambertHifigan个性化语音合成-中文-预训练-16k · 模型库 (modelscope.cn).

pip install openai-whisper

pip install modelscope

pip install tts-autolabel -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install typeguard==2.3.1

pip install sox

pip install bitstring

pip install pysptk --no-build-isolation

pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install pytorch_wavelets

pip install tensorboardX

git clone https://github.com/fbcotter/pytorch_wavelets

pip install matplotlib

pip install numpy==1.22.0

第三步:准备素材与训练

  1. 在根目录新建3个文件夹:"test_wavs", "output_training_data", "pretrain_work_dir"

  2. 下载视频到根目录,我是用的youtube-dl下载的,也可以用其他方式下载

  3. 音画分离,不懂就问它:

4.将声音文件放进根目录注意名称,后续代码中要对应改

5.运行大佬的声音分割代码,我只上贴图了:

红框名字注意要和你的语音一致

6.将分割后的语音移动过去:

mv  -v ./dataset_raw/test/* ./test_wavs/

7.自动标注:

8.训练:

9.推理:

注意红框部分,和大佬的不一样哈

第四步:录入小艺

用手机扫描车机上的小艺二维码,在打开的网页中选择三只小猪的故事,用另一个设备播放这15句话,一直下一步,提交后等待20分钟,华为训练完成

声音克隆在问界车机上的应用的评论 (共 条)

分享到微博请遵守国家法律