“终极调参”:可能是未来AI音乐的发展走向?
从最近网易云音乐作品上传要求必填的“风格+场景标签”,我似乎看到了未来AI音乐的发展走向。
上传网易云的每首音频都要求在所给的50种风格选择和50种“场景”选择(包括3类:描述类,如“甜美”“抒情”“高亢激昂”等;用途类,如“治愈”“恋爱”等,乐器类,如“钢琴”“电吉他”等)中选择3种以下填入。学院现代音乐的作曲学生也是如此训练,即给出风格和“场景标签”作曲,例如,“我要你创作一首中国民族音乐风格的、高亢激昂、抒情、描述恋爱的歌曲”,诸如此类。

按照这个方法,可计算得到这“50—50—3”选择有 (C(50,1) + C(50,2) + C(50,3))^2 = 435,765,625(四亿数量级)的可能性,而让人振奋的是这个组合的数量仅仅是在50种风格和50种场景选3种以下的简单条件下。也就是说,“50—50—3”就可以生成涵盖超过四亿种不同风格的音乐作品。
以上网易云将要实现的只是两个因素(可以类比为两层神经网络)相互作用(表示为“相乘”),实际上还可以推广到如下的 n 层网络,这就十分接近音乐创作的终极目标了:

同理可得出“n层、每层包括k_n个标签选择”的调参网络可以生成的风格数量为:Π_n(Σ_n(C(n, 1~k_n))),即从 k_n 中选择 1 至 n-1 个的方法数的总和按不同的(n)层全部相乘所得积。
举一个具体例子:如果一个多层标签调参的创作系统有“风格、情绪、乐器、用途、语言(歌曲歌词使用的语言,含“纯音乐”不使用任何语言)” 的 5 层选项,其中,风格、情绪、乐器各提供 100 种,用途、语言各提供 10 种;每次生成可在风格、情绪中选择 3 种,乐器中选择 10 种,用途选择 1 种,语言选择 2 种,那么它可以生成覆盖的具体音乐种类数目为:

这个数目达到了 10 的 26 次方(百亿亿亿)数量级!!
以上所述方法可称之为“基于多重标签的作曲”,它很可能就是在为知乎 @国得杰 所预见和提倡的“调参式作曲”发展到极致的样子作准备,并预见了那个样子,网易云这番安排可谓高瞻远瞩。
我曾经想过“作曲理论和艺术创作理论发展到极致是怎样的”,其实人类智能本身就具有想象的能力,它本身也许就已经是理论发展极致所论述的那样,就是表面完全不诉诸概念,即不讨论音高组织、节奏等具体理论问题,而是直接通过“标签参数”来生成。就如我上面提到的,【学院现代音乐作曲学生也是如此训练,即给出风格和“场景标签”作曲,例如,“我要你创作一首中国民族音乐风格的、高亢激昂、抒情、描述恋爱的歌曲”,诸如此类。】如果把主体从作曲学生换成机器,兴许就是我们殚精竭虑想要达到的那个理论的最终形态吧,这甚至也可以把我跟知乎 @叶小胖 都共有疑惑的那个“音乐终极问题”一并解决了。同理,以上实现方式应该可以推广到一切艺术创作。
~ 完 ~