随着支持AI歌声合成的VOCALOID6的发布和发售,AI Megpoid也同时在互联网上发布

10月13日,雅马哈公司发布了众望所归的VOCALOID新版本。随着VOCALOID6的发布,在同公司运营的VOCALOID官方商店https://www.vocaloid.com/开启了下载版的售卖。VOCALOID6最大的特点则是搭载了能够实现AI歌声合成的新引擎——VOCALOID:AI。与以往的VOCALOID软件相比较,新一代VOCALOID软件能够实现更加自然的歌声合成。另一方面,由至今为止的采样所开发的VOCALOID引擎所搭载的混合技术也是VOCALOID6的一大亮点。根据用户制作歌曲的需求,可以自由选择VOCALOID3/4/5的声源。
在VOCALOID6之中,默认搭载了除VOCALOID:AI本身支持的4种声源之外,还有VOCALOID5之中的4种声源,共计8种。含税价格27500日元。同时也为旧版本VOCALOID用户准备了16500日元的升级版,使得升级更加方便容易。和VOCALOID6的发布同时进行的还有VOCALOID6 Voicebank AI Megpoid的发售。这是单独版的声源(附带包装版:13200日元/下载版:11220日元),除此之外,也准备了和VOCALOID6编辑器成套发售的标准版(附带包装版:27500日元/下载版:23375日元,雅马哈声源不包含在内)目前在全国范围的商店和网店开始销售(截止10月13日仅在官方网店进行销售,后续销售渠道会陆续跟进)。

VOCALOID6的性能和功能得到了大幅提升的同时,编辑器上也更加具有了DAW的风格,可谓是精益求精。同时,新VOCALOID和迄今为止的VOCALOID有何不同?VOCALOID:AI为何物?最近的AI歌声合成技术有什么异同?并且,为何Megpoid也在同一时间登场?我们就这些问题,对雅马哈公司,电子乐器开发部、音响和专栏组的吉田雅史、研究开发总括部、第一研究开发部、音乐情报处理组的大道龙之介以及Internet公司的代表取缔役,村上升,进行了采访。
时隔四年版本升级的VOCALOID6为融合引擎
——VOCALOID6在CeVIO AI和Synthesizer V等众多引擎的激烈竞争之中迎来版本升级,和VOCALOID5相比确实是隔了很长时间吧。
吉田 VOCALOID5的发布因为是在2018年7月,所以同新版本应该相隔了大约四年。实际上从VOCALOID4到VOCALOID5也是大约4年,在那以前的VOCALOID3到VOCALOID4大约4年,从VOCALOID2到VOCALOID3大约4年,因此,其实是比较稳定地在发展。当然我也不免认为,由于其他厂商步伐迅速,这四年对于用户来说确实是相当一段长时间的等待。在VOCALOID5发布之后,我们进行了各样活动,诸如公开了像AI美空ひばり这样的技术。我们一边不断吸收学习着AI技术,一边围绕着应该令其朝着什么方向发展这一话题,广泛多样地议论着过来了。结果便有了本次这种形式的发布。

——各个公司都积极地推出了AI歌声合成技术,VOCALOID也在遵循这条道路吗?
吉田 我觉得于我个人而言,出现竞争倒是一件欣喜的事。这说明歌声合成业界依然是成长着的产业,还是有不少上升空间的嘛,这样子以积极向上的心态来看待。这一回,AI技术成为了VOCALOID6的核心,这是事实。但尽管如此,并不是说这就否定了至今为止的技术成果。回顾乐器的世界的话同样如此,即使电钢琴和合成器诞生了,传统钢琴也还在继续使用,并不是取而代之的。因此我们在保留VOCALOID旧引擎技术的同时,搭载了VOCALOID:AI这种新引擎,制作出了两者都可以兼顾使用的产品。当然了因为引擎的不同,虽然节拍和歌词这些最重要的部分都是共通的,但各个参数之间却要分别调试(注:Dynamics和Pitch bend也是共通的,可以在VOCALOID和VOCALOID:AI的不同轨道之间互相复制)

——看到AI美空云雀项目在NHK上放映时,我感动无比,亦十分震惊。这一次,那种技术终于作为新产品发布了呢。
大道 由于同样采用了AI这一用词,二者难免混为一谈,但实际上,美空云雀的AI和这次的VOCALOID:AI所使用的技术在系统上有所不同,总之是形似神非的不同事物。就概念方面来说,美空云雀的场合是,要用云雀小姐的风格,让其本人的AI代为演唱歌曲,以此作为开发的目标,正是让云雀小姐自己的歌声和演唱方式活过来的开发方式。而VOCALOID6是作为电子乐器开发而来的,创作者在与它通力协作的同时,也能够展现出自己的个性,我们把它做成了这样的形式。打比方说,云雀AI对于云雀本人演唱过的音域,可以十分具现化地以云雀小姐的个人风格演唱出来,但是若要演唱云雀本人音域之外的范围,与其说是无法进行演唱,其声音会变得非常尖涩难听。与此相对的VOCALOID6,即使超出音域范围也可以进行演唱,虽然借助AI学习对声音强度进行控制费时费力,但只要通过调整参数,任何人都可以自由地令其歌唱,我们将其变成了这样一种可能。

——原来如此,当时就觉得AI美空云雀很厉害,但原来还是有所不同呢。
大道 计算量、计算机的负荷方面也相差很大。云雀AI当时,我们使用了相当高性能的计算机,但也花了预估时间以上的实际时间来生成声音,但是VOCALOID6即使在最普通的计算机上仍然可以快速运行。正是因为使用了AI,一方面的想法是,应当自动地表现出带有原歌手风格的演唱方式,另一方面,又有想让创作者的个性表现出来的侧面思路,这种平衡该如何把持也是难点之一。特别是在音调的开发问题上,产生了很多的议论。如果过于忠实于原唱的演唱风格,就会显得过于个性;如果过于平淡,则又会变成,这不就是以前的VOCALOID嘛,这样的情况。

VOCALOID——能够自由表现创作者想法的乐器
——使用Synthesizer V以及CeVIO AI时,即使不加任何修饰,也能发出与人类十分相像的歌声。VOCALOID6则似乎和它们有着方向上的差异,是这样一回事吗?
大道 我对其他公司的产品不能说得上有准确的了解,但我觉得这些产品的特征是人物声音的全面性。另一方面,在VOCALOID6中,音色可以根据音调改变,演唱方式亦然。我们是本着使歌声更加自然的想法来进行开发的。
村上 至于动态效果,我觉得如果不加后期修饰的话,(其动态效果)不能很好地反映出原声(人声)的变化效果。因此便有了和之前的VOCALOID相似的这样一个微妙差别:在此基础上,使用音符表达工具和音高调整工具来进行相应的编辑,不仅可以得到十分接近人声的效果,并且根据操作方式的不同,还会在表现风格上体现出很大的变化。所以即便使用同一个声库,由于用户创作风格的差异,产出的作品也会相当不同。
吉田 那正是我们所瞄准要取得的目标,亦是作为乐器而存在的VOCALOID的部分。对现实歌手的忠实再现并非是我们的目标,就是这样一回事情。

——虽然我认为不加后期调试的制作情况下,谁都能简单地制作出像人类一般的歌声,这种方式也不错。但VOCALOID的目标并不在于此,是这样吗?
大道:同样的旋律,同样的歌词,是强势的曲风还是温柔的曲风,这应该由创作者来决定。如果千篇一律就没办法体现出创作者自己的特色了,我这么认为。比如说"Let it go"就是一个典型例子,同样的歌词和旋律,在第一段副歌和第三段副歌之中展现的唱法和打击乐完全不同,这就能够感到这首曲子的乐趣和优秀之处。所以我们决定只让引擎去判断歌词和音符。
——VOCALOID6还有其他的的特征吗?
大道 可以进行多语言混唱也是VOCALOID6的一大特征。比如说Megpoid虽然只收录了日语声库,但是同样可以优秀地进行英语唱词的表现。在VOCALOID6中,无论是同一音轨还是同一部分之中,日语和英语相混合也可以游刃有余地进行演唱。即使日语歌词之中混杂着英语单词,也可以平滑地进行演唱。使用方法也很简单,只需要在日语部分写出假名,在英语部分写出拉丁字母就可以了。即使是外来语词汇,只需用假名输入,也可以进行演唱。Allen和Sarah的英语声库同样也可以进行日语的演唱。外国人演唱的日语歌曲虽然多少有些微妙,但在实际运用中并不是塑料日语的那种感觉,而是相当标准的日语。
吉田 现在能够使用日语或者英语进行歌词的录入,在这之后的升级中也会加入对中文的支持。但是,也需要对声库进行中文上的改善,如果不升级中文学习后的声库,也是没办法进行中文演唱的。当然,这部分的升级我们也是会免费提供的。

——说到混合引擎,有一个问题,和之前VOCALOID引擎共同使用的时候,会出现音色不同的情况吗?
吉田 关于这个,是和VOCALOID5使用的完全相同的引擎,没有变化。在VOCALOID6之中,可以直接读取前几代的声库并加以使用。
Megpoid和VOCALOID6在同一时间发布
——那么,这里想针对Megpoid进行一些详细提问。之前发布了属于Megpoid的A.I.VOICE GUMI。在这之后的一个月VOCALOID就登场了。是什么契机让这次的VOCALOID6选择了在同一时间发布?
村上 按照时间顺序来说的话,就和前几天在「Megpoidの音声合成ソフト、A.I.VOICE GUMIが発売開始。7年ぶりとなる製品発売の背景を探る」(Megpoid的声音合成软件,A.I.VOICE GUMI开始售卖。探索长达7年的产品销售背景)访谈记事中所说的一样,从去年秋天左右开始,就已经萌生了许多关于Megpoid新产品的想法。我也一直在向雅马哈询问事情的进展,但一直没能推进此事。在等待之中,我收到了来自AI的提案。虽然我们是正在着手进行语音方面的开发,但是我再次告诉了雅马哈方面,不能再等了,如果2022年内还不能推出的话,我可能就要去委托其他公司了...就是在这种情况下,我们在A.I.VOICE的录制过程中得到了具体的详谈,并且事情开始迅速推进。中岛爱那边也调整了时间表,就这么继续着VOCALOID方面的录制。
※文章链接:https://www.dtmstation.com/archives/58034.html

——之前,和村上先生谈话的时候,对于是否应该跳槽至CeVIO AI或者Synthesizer V项目,表达出了相当的烦恼。
村上 因为我和雅马哈有着共同开发VOCALOID2以来历代产品的经历。所以就这么舍弃VOCALOID项目转去其他公司,不太能接受。而且去了之后我就没法回到VOCALOID项目了,并不是简简单单就能舍弃的工作。这是我诚实的想法。因为确实有着这么久的情节,也想要好好去做VOCALOID项目,就这么转去其他项目对我来说很难。所以说,我才会数次地去询问项目的推进情况。

——我们先抛开至今的发展历程不谈,来比较一下作为声库源的VOCALOID、CeVIO AI、Synthesizer V三者如何?
村上 YAMAHA为我们介绍VOCALOID6时,向我们展示了样本录音和合成音,合成音的音质非常有质感。我们的目标是想要合成更加贴近人类歌唱方式的声音,但又要考虑到让任何人输入相同的音符和歌词,都能以同样的效果唱出来是否妥善…我们要注重的是能否在作品中融入具有创造性的要素,还有一个重要的点是能否编辑出所谓具有起伏的音乐效果。随着合成器技术的发展,采样器应运而生,现在可以逼真地再现钢琴的声音,但还是要由创作者来控制具体的演奏方法。不仅是要单纯接近原本的干音,更重要的点是要提高表现力。我认为VOCALOID6能够在这个方面进行很好的控制。这也是我们选择VOCALOID的重要原因之一。

具有13年历史的Megpoid,在AI化道路上的试错过程
——即便如此,与从前的VOCALOID相比的话,要让Megpoid变成能像人类那样歌唱的VOCALOID:AI也并非易事吧。
村上 这就真的是一个难关了。如果是创造一个新角色的话,就可以像往常一样让歌手来唱歌然后收录声音,再由此进行学习就可以了。但对于Megpoid来说,从VOCALOID2开始已经有了13年以上的历史,要怎样才能让她的歌声变得更像人类,这是让我很烦恼的一个点。将大家印象中的Megpoid变成更生动的声音…连我都不知道要怎么做。所以,我们先从VOCALOID2的那种最原本的歌声入手,拜托中岛小姐「请用这种音质的感觉唱一下」。但是,我们被中岛小姐问到了「用这种声音融入感情,是怎样的一个状态?」……这一点真的很难解决。这是一个很微妙的感受性的问题,如果投入了感情,声音的质感也会改变,这真的适合Megpoid吗…。让声音的质感保持原样,在某种程度上也要控制改变的幅度,这个度又该如何把控呢…。
吉田 收录的时候我也在场,村上先生负责把控Megpoid的音质,我负责确认声音改变的幅度,是这样分工着进行收录的。最难的是,收录现场无法预料会生成怎样的声音,只能让AI先学习一次试试看,所以录了很多首曲子并试作,在这种音质下调整到这种幅度…重复了很多次这样的过程。为了能做出符合我们想象中的结果,经历了很多次重新选曲,不断试错,最后的收录时间用了近两个月。
Megpoid和VOCALOID 6 Editor的编辑器启动包登场
——所以结果是在10月13日同时发售了呢。顺便一问,安装Megpoid时,在Style中也加入了原本的Megpoid是吗?这是为什么呢?
村上 Style是一种音频效果和呼吸的组合,是我创建的一些预设效果。它实际上是一种轻度混响和合唱的形式,用EQ将音域提高的同时达到加强气息声的效果。
吉田 VOCALOID 6的Style是一套内置的音频效果、机械声音和呼吸参数。就效果而言,它是和VOCALOID 5的效果完全相同的。就像给合成器的预设音色加上额外效果一样,在作曲时加上一些效果能让工作变得简单一些,所以搭载了这个机能。虽然本身具有DAW插件的功能,但它并没有搭载插件效果,所以是一个可以使用但没有预设的状态,细节部分的调整泽有用户使用DAW自由进行。原本从VOCALOID 5的时代就是这个状况,但这些效果决不会只是简单的额外效果,而是使用了YAMAHA研发的VCM技术,与专业调音台及其他设备中使用的效果是相当的,所以还请大家充分利用这个功能。

——VOCALOID 6基本都是从VOCALOID SHOP上下载版贩卖的,但Megpoid由于是启动包的形式,在VOCALOID SHOP以外的地方,比如一般的店铺也可以购入对吧。
村上 是的。有声库单品、成套的Megpoid和VOCALOID EDITOR的启动包,也有盒装版和下载版,共计4种类的制品,在10月13日会在本社的网上商城shop.ssw.jp进行贩售。以Amazon为首的在线商城和量贩店也依次接受预订。这些产品的另一个特点是,购买者可以单独下载一个名为VST FormantShift2的原创效果插件(VST/AU),这是一个用于Windows和Mac版本的插件。使用它可以对音质效果进行很大的提升,所以我们也希望使用者能结合VOCALOID 6来进行使用。我们也提供官方demo曲的VOCALOID数据(.vpr数据)的下载,还请作为研究VOCALOID 6使用方法的参考。
吉田 AI Megpoid的声库在VOCALOID SHOP上也可购入。

将录音后的歌声转换成VOCALOID:AI的歌声:VOCALO CHANGER
——除此之外,VOCALOID 6还有什么别的机能吗?
吉田 希望大家一定要体验一下VOCALO CHANGER(ボカロチェンジャー)。这是一种通过音频转换的方式来实现光靠手动输入不容易实现的效果的机能。具体来说的话,就是通过创建一个音轨,将人声载入其中并使用VOCALO CHANGER进行转换,就可以变成VOCALOID 6的声库,比如AKITO、HARUKA还有AI Megpoid。音高的变化和动态变化都会按原样进行转换,并且由于它是音频而不是MIDI,所以不会受到语言的限制。因为发声的来源只有VOCALOID:AI,所以可以说是一个仅凭手动输入就能做得很好的一个实例。

——就在前几日,我在我的AV Watch的系列文章中采访了大道先生,内容是可以把我自己的声音通过「变声麦克风」变换成持田香织小姐的声音。在VOCALOID 6中也搭载了这种机能是吗?
大道 将歌声进行变换的TransVox这个大框架是一样的,但「变声麦克风」和这次的VOCALOID 6搭载的VOCALO CHANGER是不同系统的技术。是根据不同的用途进化出不同的机能的。变声麦克风是为了在KTV里让大家为了娱乐而使用的,所以会重视实时转换性,系统的设计最大限度地减少延迟,并排除嘈杂的环境音,以免对伴奏的声音产生反应。另外,由于目标是要变成持田香织的声音,即使歌手是业余的,唱得不太好,我们也要努力确保声音和唱法与持田香织相似。与此相对的,VOCALO CHANGER的设计是为了从音频人声中产生微妙的差别变化,而这种变化很难仅凭乐谱的输入就能生成,所以它会能更巧妙地反映输入的音色和音高变化。在每个对应的声库里,它能如实反映输入语音的细微差别,比如清晰的发音就是清晰的,含混的发音就是含混的。 利用对输入的声音反应细腻的特点,在开发测试中,有些人喜欢故意输入鼓声,生成一种语音打击乐。 另外,VOCALO CHANGER不是实时输出的,而是一种转换并加载音频的形式。
吉田 VOCALOID没有录音功能,所以请事先用DAW或类似的软件创建好人声数据,并将其加载到音轨中。

——最后能告诉我们今后VOCALOID 6的发展吗?
吉田 VOCALOID 5的Style工具中的角色选项(前:性别选项)还没有搭载于VOCALOID 6中,希望在今后的更新中追加,另外也想增加一些功能上的更新,比如之前的中文支持版本。各种声库也在企划中,我们也希望逐步更新。总之,我们有可用31天的VOCALOID 6体验版,希望大家务必尝试使用一下。
——非常感谢。
※2022/10/13 VOCALOID6试用版下载:https://www.vocaloid.com/vocaloid6/trial
2022/10/14更新
VOCALOID 5の資産をすべて引き継ぎつつ、AI歌声合成を実現させたVOCALOID 6の実力
继承VOCALOID5的全部,实现AI歌声合成VOCALOID6的实力
https://www.dtmstation.com/archives/58414.html

原文链接:https://www.dtmstation.com/archives/58383.html
藤本健のDTMステーション
音乐用词相关等等若有翻译错误请在评论区留言。
翻译:NG,天才美少女夏木爱琳
校对:asahi,Q