欢迎光临散文网 会员登陆 & 注册

介绍Voicebox:首个跨任务泛化语音生成人工智能模型,性能达到顶尖水平(个人自翻)

2023-06-21 22:16 作者:暴咕P  | 我要投稿

译者序:

原文为Meta于2023年6月16日发表的《Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance》(原文地址:https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/),在此提供全文和原文底部链接的论文的标题和摘要翻译,考虑到部分读者的需求,本文对原文加注注释。由于译者精力和水平有限,翻译和注释仅供参考使用。本文以知识共享-署名 4.0(CC-BY 4.0)协议提供,若需在其他作品中使用,需标注译者姓名和出处。

部分文段的翻译参考了DeepL和腾讯新闻@AI前线,部分词汇的翻译参考了剑桥词典及部分知乎用户创作的内容,注释参考了百度百科、求闻百科、知乎@朱卫军、@蜡笔小xi、@李浩、@HeptaAI、@蓝色仙女创作的内容,在此感谢相关内容作者的贡献,但请注意这并不能保证译文内容的专业性与准确性。

以下为译文的正文内容,全文约3000字,阅读时间预计6分钟:

Introducing Voicebox: The first generative AI model for speech to generalize across tasks with state-of-the-art performance

介绍Voicebox:首个跨任务泛化语音生成人工智能模型,性能达到顶尖水平

Meta AI的研究者已经在语音生成人工智能(注1)上取得了巨大突破——我们现已开发出Voicebox,这是首个无需专门训练即可泛化(注2)语音生成任务的模型,它的性能达到了顶尖水平。

(注1:简单来说,生成式人工智能即为能生成文字、图像、音频等内容的人工智能模型。)

(注2:人工智能在机器学习算法中,需要投入一定数量的样本训练,以掌握其中的规律。泛化是指机器学习中,人工智能掌握新鲜样本规律的能力。)

类似图像和文本的生成系统,Voicebox可以创作多种风格的输出内容,它可以从头开始创作,也可以修改给定的样本。但相比创作图片或文字,Voicebox可以生成高质量的音频片段。该模型可以跨六种语言(注)合成语音,也可执行噪音消除、内容编辑、风格转换、多样化样本生成等操作。

(注:结合下文,应为英语、法语、西班牙语、德语、波兰语、葡萄牙语)

在Voicebox之前,语音生成人工智能需要使用精心准备的训练数据,对每项任务作专门的训练。Voicebox采用的新方法,使其只需从原始音频和附带的转录文本中学习。与用于音频生成的自回归模型(注)不同,Voicebox可以修改给定样本的任何部分,而不仅仅是续写给定音频片段的结尾。

(注:简单来说,自回归模型是将样本数据从复杂转为有序来进行训练,以此预测并生成新样本的人工智能模型)

Voicebox基于一种叫“流匹配”(Flow Matching)的方法运作,这种方法已被证明可以改进扩散模型(注)。Voicebox在可理解性(5.9%对1.9%的单词错误率)和音频相似度(0.580对0.681)方面都优于目前最先进的英语模型VALL-E,而速度则高达后者的20倍。在跨语言风格转换上,Voicebox胜过YourTTS,将平均单词错误率从10.9%降至5.2%,并将音频相似度从0.335提高到0.481。

(注:简单来说,扩散模型是指类似物理学的扩散作用,根据一定的权重,为样本添加或减少来自其他样本的不规则信号后,生成新样本的人工智能模型)

Voicebox取得了最先进的新成果,在单词错误率方面优于Vall-E和YourTTS。
在以英语和多语言为基准的音频风格相似度性能指标上,Voicebox也取得了最先进的新成果。

语音生成模型有许多令人兴奋的用例,但由于滥用的潜在风险,我们目前不会公开提供Voicebox的模型或代码。虽然我们认为,为了推动人工智能技术的发展,对人工智能社区持开放态度并分享我们的研究很重要,但也有必要在开放与责任之间取得适当的平衡。基于这些考虑,今天我们将分享音频样本和一篇研究论文(注),详细介绍我们的方法和成果。在论文中,我们还详细介绍了我们如何构建一个高效的分类器,以区分真实的语音和Voicebox生成的音频。

(注:论文标题:Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale,论文地址:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)


A new approach to speech generation

语音生成的新方法

现有语音合成工具的主要局限之一,在于只能用为专门的任务准备的数据进行训练。这些单调且干净的输入数据相对有限且难以收集,也导致输出内容听上去同样单调。

我们基于“流匹配模型”(注)搭建了Voicebox,这是Meta在非自回归生成模型领域的最新进展,可以掌握文本到语音之间非确定性高的映射。非确定性映射很有用,它使得Voicebox可以从不同的语音数据中学习,而无需对其差异做详尽标注。也就是说,Voicebox能够在多样性更强、规模更大的数据上进行训练。

(注:论文标题:Flow Matching for Generative Modeling,论文地址:https://arxiv.org/abs/2210.02747)

我们用超过五万小时的语音录音,和英语、法语、西班牙语、德语、波兰语、葡萄牙语公共领域有声读物的转录文本对Voicebox进行了训练。经过训练,Voicebox能在给定前后语音及其转录文本时预测语音片段。在学会结合上下文补全语音之后,该模型可以在整个语音生成任务中应用这个方法——包括生成音频的中间部分,而无需重建整个输入。

这种多功能性可以使Voicebox出色地执行各种任务,具体包括:

结合上下文的文本转语音合成:只需使用两秒钟的输入音频样本,Voicebox就能匹配样本的音频风格,并将其用于文本转语音生成。未来计划在这一能力的基础上,为无法说话的人士提供语音支持,或者为NPC及虚拟助手定制对话语音。

跨语言风格转换:给定一段语音样本,外加一段英语、法语、德语、西班牙语、波兰语或葡萄牙语的文本,Voicebox即可生成对应的阅读语音。这种能力令人兴奋,因为在未来,它可以帮助人们以自然、真实的方式交流——即使他们说不同的语言。

语音降噪和编辑: Voicebox的上下文学习使其善于生成语音,可无缝编辑音频记录中的片段。它可以重新合成暂时被噪音破坏的语音部分,或者替换说错的词语,而无需重新录制整段语音。用户可以确定被噪音(如狗叫声)破坏的原始语音片段,裁剪并指示模型重新生成。未来这种能力可以用来清理和编辑音频,就像流行的图像编辑工具调整照片一样简单。

多样化语音采样:利用多样化的自然数据完成学习后,Voicebox可以生成以上六种语言的语音,这些语音更符合现实世界中人们的说话方式。未来这种能力可以用来生成合成数据,协助训练语音助手模型。我们的研究结果表明,使用Voicebox生成的合成语音训练出的语音识别模型,在性能上几乎与使用真实语音的模型相当,且错误率降低了1%;与以往同类文本转语音模型相比,合成语音数据训练结果的错误率降低了45%至70%。


Sharing generative AI research responsibly

负责地分享生成式人工智能研究

作为首个能成功执行任务的多功能高效泛化模型,我们相信Voicebox能引领语音合成人工智能的新时代。就像其他强大的人工智能创新成果一样,我们认为这项技术潜在滥用和意外危害的风险。在我们的论文中,我们详细介绍了我们如何构建一个高效的分类器,以区分真实的语音和Voicebox生成的音频,从而减轻未来可能的风险。我们认为公开我们的工作很重要,这样研究社区可以在这一基础上推进,并继续进行我们关于如何负责地构建人工智能的重要对话,这就是我们要在研究论文中分享我们的方法和结论的原因。

Voicebox代表着生成式人工智能研究向前的重要一步,在文本、图像、视频生成方面,其他具有任务泛化能力的可扩展生成式人工智能模型,已经激发了对跨任务潜在应用的兴趣。我们希望未来能在语音方面能看到类似的影响。我们期待着在音频领域继续我们的探索,并观察其他研究者如何推进我们的工作。


以下人员的工作使这篇博文成为可能:Matt Le、Apoorv Vyas、Bowen Shi、Brian Karrer、Leda Sari、Rashel Moritz、Mary Williamson、Vimal Manohar、Yossi Adi、Jay Mahadeokar、Wei-Ning Hsu。

以下为原文底部链接论文(https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/)的标题和概要翻译:

Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

Voicebox:文本引导的大规模多语种通用语音生成模型

作者:Matt Le、Apoorv Vyas、Bowen Shi、Brian Karrer、Leda Sari、Rashel Moritz、Mary Williamson、Vimal Manohar、Yossi Adi、Jay Mahadeokar、Wei-Ning Hsu

大规模生成模型,例如GPT和DALL-E,已经在自然语言处理和电脑视觉研究方面引发了突破性变革。这些模型能生成高精度的文本和图像输出,还能通识和解决未受明确训练的任务。与此相比,语音生成模型在规模和任务泛化方面仍然十分落后。在这篇论文中,我们将要介绍Voicebox——目前最全能的文本引导大规模多语种语音生成模型。Voicebox是一个非自回归流匹配模型,使用超过五万小时未经过滤或增强的语音进行训练后,能根据给定音频的上下文和文本填充语音。与GPT相似,通过上下文学习,Voicebox能执行多种任务,但因其能预测上下文并进行调节,Voicebox有着更灵活的表现。Voicebox能用于单语种至跨语种的零样本文字转语音合成、噪音消除、内容编辑、风格转换、多样化样本生成等操作。特别是在可理解性(5.9%对1.9%的单词错误率)和音频相似度(0.580对0.681)方面,Voicebox都优于目前最先进的零样本文字转语音模型VALL-E,而速度则高达后者的20倍。访问voicebox.metademolab.com以获得模型示范。

介绍Voicebox:首个跨任务泛化语音生成人工智能模型,性能达到顶尖水平(个人自翻)的评论 (共 条)

分享到微博请遵守国家法律