预告:从零开始学习AI歌声调教

【未来我会在我的微信公众号(巧克力的游戏屋)上发布AI歌姬调教教程合集,敬请期待!】
一、引言
虚拟歌姬由来已久,在深度学习还未爆火的2003年,雅马哈公司就已经推出了可以进行歌声合成的软件VOCALOID,初音未来、洛天依等虚拟歌姬更是成为家喻户晓的顶级IP。2022年以来,虽然虚拟歌姬在B站的热度大不如前,但是深度学习的发展让虚拟歌姬的歌声合成水平产生了质的飞跃。诸如Synthesizer V、ACE studio、CeVIO、DiffSinger等强大的AI歌声合成引擎如雨后春笋般涌现,其歌声质量已直逼真人歌手。
如果你之前从未接触了解过虚拟歌姬,或者你对虚拟歌姬的印象仍停留在机械、电音拉满的层面,那么我建议你可以看看下面这个视频:
https://www.bilibili.com/video/BV1K24y1u78U
P1是真人演唱,P2是AI合成。如果不告诉你,你能区分开吗?
在AI技术的加成下,虚拟歌姬目前完全可以做到以假乱真的效果了。
AI技术的发展,也对歌曲调教产生了非常巨大的影响(如果你不知道什么是调教的话,那么可以先简单认为是给虚拟歌姬进行调音,后面我会详细展开解释)。以往的很多工作,现在都可以通过AI技术自动实现,这使得调教的难度与工作量大大降低。B站上有很多调教的教程,但大多都针对的是没有AI技术加成的歌姬,在时效性上有所落后,且覆盖的知识也不是非常全面。因此,我想做一个详细的针对AI歌姬的调教教程,希望能对新手小白有所帮助。
二、一些基本概念的解释
1、AI歌声合成
歌声合成,隶属于声音合成中的子领域。目前,跟歌声相关的AI技术主要分为两类:
SVS(Singing Voice Synthesis):歌声合成,即让AI学习一位歌手的声音特征,然后根据曲谱生成一段和歌手声音相近的歌声。
SVC(Singing Voice Conversion):歌声转换,即让AI学习一位歌手的声音特征,然后对另一个歌手的歌曲进行声音替换。
像VOCALOID、Synthesizer V、ACE studio、DiffSinger这些都属于SVS类。SVS相较于SVC的最大优点在于灵活性高,可以对歌曲的音高曲线、动态甚至音色变化做非常灵活的调整。因此,本教程也主要针对的是SVS的歌曲调教教程方法,SVC领域并不涉及。
2、歌曲调教
歌曲调教指的是让虚拟歌手按照曲谱唱出歌曲,并对音高曲线、声音动态、音色、发音咬字等演唱细节进行调整,使之情感饱满的工作。以Synthesizer V的界面为例,每一个绿色方块都代表着虚拟歌姬要演唱的部分,每一个方块的位置都对应着钢琴卷帘的一处音高,方块中的细线就是音高曲线(以后会详细介绍),下面的波形就是虚拟歌姬演唱出来后的真实波形。各个AI歌声合成引擎虽然功能与界面略有差异,但有关演唱的钢琴卷帘界面基本一致,我们调教要做的工作主要就是对这些方块进行调整修改。

三、AI技术为歌声合成带来的变革
AI技术加成下的虚拟歌姬以及歌声合成引擎究竟和以前有哪些不同?以下是我的观点:
声音质感与咬字发声:AI虚拟歌姬在听感上相较于传统的虚拟歌姬,更加逼近真人歌手。以往虚拟歌姬的机械感、发音不标准等问题,现在都已基本解决。以往的调教过程中,为了解决虚拟歌姬咬字不标准的问题,需要花大量功夫进行拆音工作,如今得益于AI歌姬的强大表现力,目前的AI歌姬调教中已经很少用到拆音了(跨语言除外)。
音高曲线的高度自动化:目前的AI歌姬可以自动生成音高曲线,以逼近真人歌手的演唱。这使得我们在调教过程中的音高调整工作量大大减少,尽管有时AI歌姬的音高曲线不太稳定还是需要手动调整。
音色的高度自由化:AI歌姬在音色上也可以进行自动调整,并且支持高度自由的手动调整,这使得AI歌姬的演唱风格更加多样化。
四、本教程的主要内容
本教程主要面向零基础的AI歌声合成小白,全面细致讲解歌曲调教的整个流程,以及用到的常见技术技巧,帮助各位新手入门,去实现自己的第一个调教作品。
本教程虽然主要用的是Synthesizer V引擎,但是有关调教思路、音高曲线、动态等知识的讲解是互通普适的,完全可以应用在其他AI歌声合成引擎上。个人认为,理解好思路要比运用好软件更重要。
本教程主要涵盖以下内容:
第一节:AI歌姬调教的流程与思路
第二节:AI歌声合成所需要的软硬件准备
第三节:如何逐步提高自己的调教水平?
第四节:翻调前的准备工作
第五节:快速了解Synthesizer V
第六节:AI虚拟歌姬的音色设计
第七节:如何使用自动音高功能
第八节:音高曲线(Pitch)调教方法
第九节:动态调教方法
第十节:停顿≠无:cl、br的使用
第十一节:简谈拆音
第十二节:和声的处理原则
第十三节:导出作品的注意事项
第十四节:虚拟歌姬混音经验分享