欢迎光临散文网 会员登陆 & 注册

MUSICGEN:简单可控的音乐生成

2023-06-25 21:28 作者:AI小浩  | 我要投稿

摘要

论文连接:https://arxiv.org/pdf/2306.05284v1.pdf 我们解决了条件音乐生成的任务。我们引入MUSICGEN,这是一个单一的语言模型(LM),它可以在几个压缩的离散音乐表示流(即token)上操作。与之前的工作不同,MUSICGEN由单级变压器LM和有效的Token交错模式组成,这消除了层叠多个模型的需要,例如,分层或上采样。按照这种方法,我们将演示MUSICGEN如何生成高质量的样本,同时以文本描述或旋律特征为条件,从而更好地控制生成的输出。我们进行了广泛的经验评估,考虑到自动和人类研究,表明所提出的方法优于标准文本到音乐基准的评估基线。通过消融研究,我们阐明了组成MUSICGEN的每个组件的重要性。音乐示例、代码和模型可在https://github.com/facebookresearch/audiocraft上获得。

1、简介

文本到音乐是指在给定文本描述的情况下生成音乐作品的任务,例如,“90年代吉他即兴摇滚歌曲”。生成音乐是一项具有挑战性的任务,因为它需要对长序列进行建模。与语音不同,音乐需要使用全频谱[Müller, 2015]。这意味着以更高的速率对信号进行采样,即音乐录音的标准采样率为44.1 kHz或48 kHz,而语音的采样率为16 kHz。此外,音乐包含来自不同乐器的和声和旋律,这创造了复杂的结构。人类听众对不和谐非常敏感[Fedorenko等人,2012,Norman-Haignere等人,2019],因此生成音乐不会给旋律错误留下太多空间。最后,以多种方法控制生成过程的能力,如键、乐器、旋律、流派等,对音乐创作者来说是必不可少的。

自监督音频表示学习[Balestriero等人,2023]、序列建模[Touvron等人,2023]和音频合成[Tan等人,2021]方面的最新进展为开发此类模型提供了条件。为了使音频建模更容易处理,最近的研究提出将音频信号表示为表示同一信号的多个离散token流[Défossez等人,2022]。这使得高质量的音频生成和有效的音频建模成为可能。然而,这是以联合建模几个并行的依赖流为代价的。

Kharitonov等人[2022],Kreuk等人[2022]提出了采用延迟方法并行建模语音token的多流,即在不同流之间引入偏移量。Agostinelli等人[2023]提出使用不同粒度的多个离散标记序列来表示音乐片段,并使用自回归模型的层次结构对其进行建模。与此同时,Donahue等人[2023]采用了类似的方法,但针对的是演唱到伴奏生成的任务。最近,Wang等人[2023]提出分两个阶段解决这个问题:(i)只对第一个token流建模;(ii)然后,应用后网络以非自回归的方式联合建模其余流。

在这里插入图片描述

本文提出MUSICGEN,一种简单、可控的音乐生成模型,能在给定文本描述的情况下生成高质量的音乐。本文提出一个对多个并行声学token流进行建模的通用框架,作为以前研究的概括(见图1)。为提高生成样本的可控性,本文还引入了无监督旋律条件,使模型能够生成匹配给定和声和旋律结构的音乐。对MUSICGEN进行了广泛的评估,所提出的方法在很大程度上优于评估基线,MUSICGEN的主观评分为84.8(满分100分),而最佳基线为80.5。还提供了一项消融研究,阐明了每个组件对整体模型性能的重要性。最后,人工评估表明,MUSICGEN产生了高质量的样本,这些样本在旋律上更好地与给定的和声结构对齐,同时符合文本描述。

本文贡献:(i)提出了一个简单高效的模型,可以在32khz产生高质量的音乐。MUSICGEN可以通过有效的码本交错策略,用单阶段语言模型生成一致的音乐。(ii)提出一个单一的模型,来进行文本和旋律条件生成,并证明生成的音频与提供的旋律是一致的,并忠实于文本条件信息。(iii)对所提出方法背后的关键设计选择进行了广泛的客观和人工评估。

完整译文: https://blog.csdn.net/m0_47867638/article/details/131298847


MUSICGEN:简单可控的音乐生成的评论 (共 条)

分享到微博请遵守国家法律