“终极调参”：可能是未来AI音乐的发展走向？

2020-07-10 00:03 作者:作曲奥校-陈文戈 0人读过 | 我要投稿

　　从最近网易云音乐作品上传要求必填的“风格+场景标签”，我似乎看到了未来AI音乐的发展走向。

　　上传网易云的每首音频都要求在所给的50种风格选择和50种“场景”选择（包括3类：描述类，如“甜美”“抒情”“高亢激昂”等；用途类，如“治愈”“恋爱”等，乐器类，如“钢琴”“电吉他”等）中选择3种以下填入。学院现代音乐的作曲学生也是如此训练，即给出风格和“场景标签”作曲，例如，“我要你创作一首中国民族音乐风格的、高亢激昂、抒情、描述恋爱的歌曲”，诸如此类。

　　按照这个方法，可计算得到这“50—50—3”选择有 (C(50,1) + C(50,2) + C(50,3))^2 = 435,765,625（四亿数量级）的可能性，而让人振奋的是这个组合的数量仅仅是在50种风格和50种场景选3种以下的简单条件下。也就是说，“50—50—3”就可以生成涵盖超过四亿种不同风格的音乐作品。

　　以上网易云将要实现的只是两个因素（可以类比为两层神经网络）相互作用（表示为“相乘”），实际上还可以推广到如下的 n 层网络，这就十分接近音乐创作的终极目标了：

　　同理可得出“n层、每层包括k_n个标签选择”的调参网络可以生成的风格数量为：Π_n(Σ_n(C(n, 1~k_n)))，即从 k_n 中选择 1 至 n-1 个的方法数的总和按不同的（n）层全部相乘所得积。

　　举一个具体例子：如果一个多层标签调参的创作系统有“风格、情绪、乐器、用途、语言（歌曲歌词使用的语言，含“纯音乐”不使用任何语言）” 的 5 层选项，其中，风格、情绪、乐器各提供 100 种，用途、语言各提供 10 种；每次生成可在风格、情绪中选择 3 种，乐器中选择 10 种，用途选择 1 种，语言选择 2 种，那么它可以生成覆盖的具体音乐种类数目为：

　　这个数目达到了 10 的 26 次方（百亿亿亿）数量级！！

　　以上所述方法可称之为“基于多重标签的作曲”，它很可能就是在为知乎 @国得杰所预见和提倡的“调参式作曲”发展到极致的样子作准备，并预见了那个样子，网易云这番安排可谓高瞻远瞩。

　　我曾经想过“作曲理论和艺术创作理论发展到极致是怎样的”，其实人类智能本身就具有想象的能力，它本身也许就已经是理论发展极致所论述的那样，就是表面完全不诉诸概念，即不讨论音高组织、节奏等具体理论问题，而是直接通过“标签参数”来生成。就如我上面提到的，【学院现代音乐作曲学生也是如此训练，即给出风格和“场景标签”作曲，例如，“我要你创作一首中国民族音乐风格的、高亢激昂、抒情、描述恋爱的歌曲”，诸如此类。】如果把主体从作曲学生换成机器，兴许就是我们殚精竭虑想要达到的那个理论的最终形态吧，这甚至也可以把我跟知乎 @叶小胖都共有疑惑的那个“音乐终极问题”一并解决了。同理，以上实现方式应该可以推广到一切艺术创作。

～完～

标签：

“终极调参”：可能是未来AI音乐的发展走向？

“终极调参”：可能是未来AI音乐的发展走向？的评论 (共条)

你可能也喜欢这些文章

最新发布的文章

“终极调参”：可能是未来AI音乐的发展走向？

本文作者的其他文章

“终极调参”：可能是未来AI音乐的发展走向？的评论 (共 条)

你可能也喜欢这些文章

最新发布的文章

“终极调参”：可能是未来AI音乐的发展走向？的评论 (共条)