Tacotron2语音合成之复刻主播声音

2022-08-31 14:42 作者:秋之雪华 0人读过 | 我要投稿

最近在阿B看到许多语音合成的视频，效果比小爱的声音定制略胜一筹，不能说和本人一模一样，但是也相当近似。

从实现方式讲，有阿里云商用闭源方案，有Tacotron2和VIST开源方案，以及更早的MockingBird。目前我用了Tacotron2，自我感觉上手难度较低，但是时间开销有些大。

在这里总结一下经验并作一个技术分享。

背景

目前的多数示例是使用游戏音频素材做训练和合成的。游戏音频素材已经是每句一个录音文件，发音吐字清晰，没有不必要的停顿和重读，录音音量稳定，无噪音和背景音，而主播录播内容恰恰相反，唯一的优势是录播素材多，可以手动精选。

准备

一台电脑
访问外网的工具
一个谷歌账户
预先下载录播（首选杂谈类型的录播，毕竟游戏、歌回、同步视听不是话说的少就是干扰因素多；杂谈也尽量选择纯音乐做BGM的录播）

MockingBird

先简单说一下MockingBird，MockingBird的上手难度短和时间开销低，但是实际效果很不理想。简单讲，MockingBird需要内置一个模型，然后你提供一条10秒左右录音文件，MockingBird从录音文件学习，然后合成新的声音。

当内置模型和录音文件差异很大时，合成的结果就会翻车。

其次这种学习是无法学到平翘舌、前后鼻音之类的不标准的发音的。

因此不推荐使用这个工具。

简介

主要使用了 @梅雨初霁的工具包进行训练

https://t.bilibili.com/695241886813650984

也参考了这个视频对录播的处理

https://www.bilibili.com/video/BV1dq4y137pH

文件准备

录播的录音文件需要做一定的预处理。我在处理过程中均使用wav文件格式，不一定非wav不可，但是理论上这可以减少重复编码解码造成的信息损失。

切割

由于直播间通常有背景音乐，需要使用工具去除背景音；而录音文件越大，工具对内存就有更高的需求，因此录音文件需要根据具体情况预先切割。

通常来说10分钟是不会有问题的

1小时的录音去除背景音乐时占用内存5G，但是并非剩余内存大于6G就一定能够运行成功

切割录音文件使用的工具我推荐QuickCut

https://github.com/HaujetZhao/QuickCut/releases

重命名音频后缀为wav，拖文件到输入路径；选择一个输出文件夹，设置片段时长（秒），点击运行

2. 去除背景音乐

下载并使用Spleeter为核心二次开发的程序，并处理已经切割后的文件。我推荐（个人感觉资源开销低，其他工具可能真的只能处理切割为10分钟的片段） https://github.com/wudicgi/SpleeterMsvcExe/releases/ ，也可以使用https://github.com/otomad/SpleeterGui 或者 https://github.com/Anjok07/ultimatevocalremovergui/releases

处理结束，文件名包含vodal的就是去除了背景音乐的纯人声录音，其他文件都可以删除。

由于主播通常使用单通道麦克风录音，而背景音乐通常是立体声，可以使用音频处理软件（比如golden wave的立体声通道处理功能，选择“提升人声”或者“提升中央”，对录音文件中的噪音再次消除。