声音克隆在问界车机上的应用

2023-08-11 00:46 作者:出云呢 0人读过 | 我要投稿

问界车机上的小艺默认是支持训练自己的声音作为语音交互的，就是在车机的小艺设置中按照他的要求读指定的15句话，然后再华为云训练20来分钟就出成果了。但是华为团队其实不懂车友的需求，我们需要的是大嘴的声音，毕竟只有大嘴才能让我们欢乐。。。

作为一个资深的CTRL+CV工程师，对于没有大嘴的声音是不能忍的，于是一个想法就诞生了，用声音克隆的方式让大嘴给我们读者15句话。

第一步：环境搭建

我是在WSL中搭建的。

首先需要装CUDA，先检查下自己的显卡驱动，CUDA版本，在NVDIA的驱动面板中：

然后在developer.nvidia.com/cuda-toolkit这个地址去找对应版本的即可。我是12.2，因此下面的MD文档以12.2为例

第二步：依赖安装

然后照着大佬的视频安装相关依赖，当然你也可以和大佬一样用云，只是我用的本地部署。

视频地址：KanTTS中文声音克隆首发！训练5分钟，使用不限时！AI快速拟声，一键训练和部署的详细教程，快来试试吧，看笔记本即可

当然更建议阅读达摩官方的文档，地址是：SambertHifigan个性化语音合成-中文-预训练-16k · 模型库 (modelscope.cn).

pip install openai-whisper

pip install modelscope

pip install tts-autolabel -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install typeguard==2.3.1

pip install sox

pip install bitstring

pip install pysptk --no-build-isolation

pip install kantts -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

pip install pytorch_wavelets

pip install tensorboardX

git clone https://github.com/fbcotter/pytorch_wavelets

pip install matplotlib

pip install numpy==1.22.0