RMVPE:10分钟变声,开源模型和webui帮助快速上手
本文介绍了一个名为RMVPE的稳健模型,用于从多声部音乐中提取声乐音高。该模型利用深度U-Net和GRU直接从多声部音乐中提取声乐音高。这样,RMVPE不仅可以从多声部音乐中提取声乐音高,而且对不同类型的噪声具有稳健性。此外,RMVPE在清晰的人声或其他单声部音乐上的表现与其他模型相当。
论文链接:https://arxiv.org/abs/2306.15412#
Readpaper链接:https://readpaper.com/paper/4771618873833160705
并且Github上的RVC项目已经整合了这个模型,发布了一个名为"Retrieval-based-Voice-Conversion-WebUI"的开源工具,它只需10分钟的语音数据就可以训练出一个优秀的语音转换(VC)模型。该项目提供了一个基于VITS的简单易用的变声框架,支持多种显卡和操作系统,并具有简单易用的网页界面。
项目:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
详细介绍
背景:音高估计在音乐信息检索中的任务已经研究了数十年。许多算法都被提出来解决这个问题,主要分为两类:传统的启发式方法和基于数据的方法。
方法:RMVPE模型使用log mel-spectrograms作为输入特征,并使用概率矩阵来表示预测的音高。这样,音高估计任务可以正式写为:F : XT×F → YT×360,其中T代表音频的帧,F是对数间隔的频率bin。

实验:在MIR-1K、MIR ST500和Cmedia数据集上进行了广泛的实验,结果显示我们的模型在多声部音乐中进行声乐音高估计时表现最佳。此外,对MIR-1K进行的丰富实验显示,RMVPE对噪声具有稳健性。

RVC开源项目
项目背景:语音转换技术在近年来得到了广泛的关注,尤其是在人工智能和多媒体领域。RVC项目旨在为开发者和研究者提供一个简单、高效的语音转换工具。


● 使用top1检索替换输入源特征为训练集特征来杜绝音色泄漏。
● 即使在相对较差的显卡上也能快速训练。
● 使用少量数据进行训练也能得到较好结果。
● 可以通过模型融合来改变音色。
● 简单易用的网页界面。
● 使用最先进的人声音高提取算法InterSpeech2023-RMVPE。
● 使用方法:项目提供了详细的环境配置、依赖安装和使用指南,包括如何启动WebUI、如何下载和使用预训练模型等
● 教程视频:https://www.bilibili.com/video/BV1pm4y1z7Gm/?vd_source=1eb9b86d48f03813b36911dfece560f3
还有许多简单全面的教程:
另一个开源项目也是使用了RMVPE:喂饭级SO-VITS-SVC教程,轻松生成AI歌曲(https://zhuanlan.zhihu.com/p/630115251)
观点
学术上,和声音有关的今年真的非常卷,早些时候就已经出了很多变声的模型和框架还有各种实操教程。可以说,这个领域原本的超高门槛,也因为这些开源开发者的努力变得很低很低了。而且,在这个基础上,可以使用开源的模型和框架进行进一步快速的研发。现在依然有一些问题需要解决,比如,能不能做到有自然的呼吸声等。
在商业上,这种方法可以应用于音乐制作、音乐编辑和其他与音乐相关的领域,特别是在需要从多声部音乐中提取声乐音高的场景中。
特邀作者:日本早稻田大学计算机系博士 王军杰