对于AI换声和调教,面向圈外人和调教小白的科普文
调校是一种生产行为。
人们可以通过手动编辑音乐基础要素信息,到各类合成声音引擎或者编辑器软件中,这一类软件能根据输入的信息,采用相应的计算模式,输出对应的音频。
信息包括但不仅限于:音色,音素(歌词),音高,张力,节奏,假音,力度,共振峰,发音,气声,颤音频率,颤音幅度…….
而输入、编辑此类信息的流程被称作调校。调校得到的产物是音频波形文件(.wav),被称作干音——未被后期处理的声音,与此相对的是湿音——后期处理过的声音。
软件截止至2023年5月,有但不限于:
1. VOCALOID——雅马哈株式会社
2. Synthesizer V——Dreamtonics | 循语究音(上海)技术开发有限责任公司
3. ACE Studio——青岛时域科技有限公司
4. UTAU——饴屋/菖蒲氏株式会社
5. X Studio——北京红棉小冰科技有限公司
计算模式则具体分为两类:
1. 采集不同人类的声音标本,然后再制作歌声资料库(音源/声库),从而合成声音。
2. 使用人工智能、深度学习、神经网络合成技术合成声音,相对前者计算量更大,计算算法更为复杂,计算所得音频文件常常被误认为是真人演唱所录制而成。
调校通常会出现在虚拟歌姬原创曲和翻唱曲的创作流程中。
虚拟歌姬是什么?
虚拟歌姬是一种计算机软件资源,它依附于上述各类编辑器,所对应的音乐基础要素是音色,调教者可以选择自己所购买的不同虚拟歌姬来合成不同音色的干声。
虚拟歌姬可能还会拥有对应的虚拟形象。
最具代表性的虚拟歌姬是:初音未来(Hatsune Miku),是2007年8月31日由Crypton Future Media以雅马哈的 Vocaloid 系列语音合成程序为基础开发的音源库,音源数据资料采样于日本声优 藤田咲。

一首虚拟歌姬原创曲可能会有多种创作流程,一般多个人分别负责策划,作词(填词),作曲,编曲,调校,混音,母带,视频制作,曲绘一系列流程,不常见但可能出现的流程还有演奏,录音,扒谱等,极少有单人独自完成原创曲的所有流程。
虚拟歌姬翻唱曲可能有以下流程:策划,重编曲,重填词,分离伴奏,扒谱,调教,混音,母带,曲绘,视频制作等。
策划的职责有很多,对于甲方,确定稿酬,确定作品风格,作品内容,确定截稿时间。对于创作者,分配具体任务,把握整体创作节奏,监视制作质量,评价以及提出修改意见。
作曲与作词二者相互配合,根据作品内容和风格创作相适配的词和曲。
编曲需要和作曲对接交流,依据作曲创作内容和风格来编写对应的和声,配器,和弦等等旋律。
混音负责将调教所创作的干音,作曲编曲所创作的伴奏或演奏者录制好的伴奏进行混合,使它们较好的融合在一起。
母带负责将混音师混合好的音频进行再处理,均衡多首作品,多个音频文件,录制成为专辑。
曲绘和视频制作一般是上传视频流媒体网站所需的流程,曲绘通常需要绘画虚拟歌姬的形象和一系列与作品相关的意象,附带显眼的作品标题文字来吸引观众。视频制作一般是使用动态效果合成软件合成与音频对应的视频,通常有字幕,动效,企划人员介绍等等内容。
调校者和虚拟歌姬之间是什么关系?
生产者与生产资料。
更通俗的讲法是,使用工具的人和工具本身。
调校者在编辑器或合成引擎中创作干音时,可以编辑假音,气声,张力等等参数,还包括虚拟歌姬自带的特有参数,来对干音进行调整。
调校者怎样调整参数?
将正确的音高,节拍,音符时长,音素(歌词)输入,渲染干音,调校者没有更改其他影响歌唱的参数,则此时干音处于无参状态。根据调校者水平的不同,有不同的调校方式,以笔者为例主要分为两种:
1.被动调校
调校者对比无参干音与调校者所预期的歌唱效果,对于演唱效果明显不佳的片段进行调参,使干音与调校者心理预期接近,通常被动调校不能产出高质量的作品。
2.主动调校
调校者主动分析虚拟歌姬的发声,例如发音速度,共鸣位置,吐气速度,吐气量,开口度,喉头力度等实际状态,考虑演唱的内容,作品的风格,抒发的感情等等演唱角度,将需要的歌唱效果抽象成参数来调校。
优秀的作品基本出自第二种调校方式,主动调校。这类调教需要满足:正确理解参数,对演唱方式足够了解,熟悉编辑器或合成引擎的操作,有一定的演唱审美等等要求,是调教这一生产流程中最具技术含量的体现。
由于笔者调校水平有限和篇幅有限,本文不详细叙述主动调校其中的技术细节。为接下来讨论内容做铺垫,对音高这一参数进行详细介绍。
在各种音乐作品中,涉及到人声演唱的旋律,往往其音高并不是平稳的,人声演唱所蕴含的感情很大程度上体现在音高的相对起伏,任何一首作品对于不同国家,不同性别,不同性格等等的人的含义不尽相同,他们对一首作品的理解绝对不会相同,而人类感情的多样性和复杂性种种因素,导致一首歌对于不同的人的演唱思路,演唱方法,演唱风格可以各不相同,所对应的变化其中之一是音高细微上的不同。

有了上述对音高的分析,我们很好理解抽参,抽参是使用音频分析工具一类软件,将一段他人创作的湿音内的演唱音高导出,这里导出也包括这段演唱音高的许多细节,软件的质量和湿音质量程度决定导出音高的细节量多少。
一首虚拟歌姬的无参工程只包含其旋律的主要走向,并不包含任何其他音高或音色上的处理,在虚拟歌姬的原创作品中,需要调教师加入自己的理解来创作新的作品。但是使用抽参来创作时,这样抽出来的音高信息,其实已经蕴含了原演唱者的思路,如果未经作者同意擅自抽参盗用,可能造成侵权行为。
相比于抽参,套参所涵盖的范围仅限于虚拟歌姬作品之间,即通过改变仅供学习讨论使用的虚拟歌姬调音工程所使用的歌姬,也就是仅改变音色,几乎不改变其他参数甚至原封不动,来制作虚拟歌姬作品的行为。如果这样的作品用于商业用途,是上述抽参更严重的抄袭行为,可以直接认定为侵权。
AI换声做了什么?
最近十分流行的AI孙燕姿,其本质上是AI换声,原理和上述使用神经网络深度学习的AI声音合成引擎相差无几。本文基于科普原因,不详细论述其中模型采用的算法细节,但这样的算法的基本思路是不断使用高斯噪音(符合正态分布的噪音)对已有素材进行加噪或降噪,模拟出对应的音频文件。一种是在一段完全随机没有任何信息的高斯噪音内不断填入信息,一种则是在一段已有信息的音频文件里加入高斯噪音来消去原有信息(音色),再通过降噪来加入需要的信息(音色)。
AI换声为什么可能侵害他人权益?
以结论概括,套参就像是他人模仿的签字,即使模仿的很像,其笔迹的力度和线条也是一定不一样的,而AI换声,就像是把一幅利用强烈的色彩反差来冲击人们的视线的画作加上一层滤镜,即使加过滤镜后的画作也很美,但是细细研究其中的色彩逻辑就不如原作清晰,甚至完全丢失原画的目的。
这两类只要未经原作者或者歌手授权,都属于窃取他人劳动成果的行为,并且这类行为常人很难注意到。
笔者想在这里补充一点,AI换声所计算出的音频不能被称为是创作,这样的作品仅仅只需要学习对应音色的素材,一首换声用的作品,一台能计算的电脑和一些时间就能产出,其过程没有创作者的参与。
我们应该如何面对AI和AI换声侵权?
首先我们要明确一点的是,AI作为一项新技术,我们不能盲目抵制,我们应该主动去了解AI,主动将AI的先进生产力运用于生产中。
AI换声侵权的成本非常低,我们应该主动避免无版权的AI换声,加强AI换声的可追溯性,可查证性,让AI换声侵权成本提高,才能根治AI换声乱象。