声音克隆在问界车机上的应用
问界车机上的小艺默认是支持训练自己的声音作为语音交互的,就是在车机的小艺设置中按照他的要求读指定的15句话,然后再华为云训练20来分钟就出成果了。但是华为团队其实不懂车友的需求,我们需要的是大嘴的声音,毕竟只有大嘴才能让我们欢乐。。。
作为一个资深的CTRL+CV工程师,对于没有大嘴的声音是不能忍的,于是一个想法就诞生了,用声音克隆的方式让大嘴给我们读者15句话。
第一步:环境搭建
我是在WSL中搭建的。
首先需要装CUDA,先检查下自己的显卡驱动,CUDA版本,在NVDIA的驱动面板中:



然后在developer.nvidia.com/cuda-toolkit这个地址去找对应版本的即可。我是12.2,因此下面的MD文档以12.2为例

第二步:依赖安装
然后照着大佬的视频安装相关依赖,当然你也可以和大佬一样用云,只是我用的本地部署。
视频地址:KanTTS中文声音克隆首发!训练5分钟,使用不限时!AI快速拟声,一键训练和部署的详细教程,快来试试吧,看笔记本即可
当然更建议阅读达摩官方的文档,地址是:SambertHifigan个性化语音合成-中文-预训练-16k · 模型库 (modelscope.cn).
pip install openai-whisper
pip install modelscope
pip install tts-autolabel -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install typeguard==2.3.1
pip install sox
pip install bitstring
pip install pysptk --no-build-isolation
pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
pip install pytorch_wavelets
pip install tensorboardX
git clone https://github.com/fbcotter/pytorch_wavelets
pip install matplotlib
pip install numpy==1.22.0
第三步:准备素材与训练
在根目录新建3个文件夹:"test_wavs", "output_training_data", "pretrain_work_dir"
下载视频到根目录,我是用的youtube-dl下载的,也可以用其他方式下载

3. 音画分离,不懂就问它:

4.将声音文件放进根目录注意名称,后续代码中要对应改
5.运行大佬的声音分割代码,我只上贴图了:


6.将分割后的语音移动过去:
mv -v ./dataset_raw/test/* ./test_wavs/
7.自动标注:

8.训练:

9.推理:

第四步:录入小艺
用手机扫描车机上的小艺二维码,在打开的网页中选择三只小猪的故事,用另一个设备播放这15句话,一直下一步,提交后等待20分钟,华为训练完成