2023.08 迄今最强的开源免费人声分离解决方案MVSEP-MDX23,赶紧把你的Spleeter丢了

这篇文章定位面向:
热衷于翻唱非华语歌曲却苦于找不到高质量Karaoke曲库的歌势、
对干音分离有需求的二创作者、
扒谱音乐爱好者
这篇文章将会教你:
梳理Music & Voice Separation算法的发展过程
如何跟进行业最前沿的音源分离算法,追求生产品质的极限完美分离(需要有一定的动手能力)
部署MVSEP-MDX23
并且,本文介绍的所有软件/方案都是免费的/开源的学术成果,以表达对圈地收费的某些商业产品的尊重:我尊重你的成果,但不会掏钱。
发展过程(对学术内容不感兴趣的可以跳过)
在音乐领域,把成熟的混音工程逆向分离一直是炙手可热的课题。音波混合的物理特性导致在没有工程文件的情况下,将其还原是一件非常困难的事情。数年以来音源分离经历了大概几个重要的发展阶段:
中置声道提取
中置声道提取方法是由Vincent et al.在2007年的论文 "Harmonic and Inharmonic Nonnegative Matrix Factorization for Polyphonic Pitch Transcription" 中提出的。这个方法用于从音频中提取中置声道(中心声音)以及其他声音源。它基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)技术,将音频信号分解为多个音频源的表示。
这个算法就是我们在Audition等常用音频处理软件中内置的非常经典的人声分离手段之一,它建立在一个有趣的前提之下:绝大多数歌曲的生产过程都使用了单声道(Mono)的Mic录制人声,再扩展到LR声道。这代表大多数情况下,人声这个轨道在LR声道的波形是完全一致的,因此中置声道提取方法只会作用于LR声道完全一致的声音。
问题在于,左右声道完全一致的音频远远不止人声,并且这种方法对立体声声像相关的效果十分敏感。这两个问题导致了:
提取出的人声混杂了相当多的杂音,并且去除了人声后的背景音有很强的中空感,有时候还会一并去除一些单声道乐器;
遇到PAN特效的音源会失效。

Spleeter
Spleeter 是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。在Deezer团队发布的论文《Spleeter: a fast and efficient music source separation tool with pre-trained models》中,他们对Spleeter的总结为一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter爆火的原因之一。
其二是Deezer作为一个商业公司,在算法成果发布后迅速与其它产品进行合作,将Spleeter带到了iZotope RX、SpectralLayers、Acoustica、VirtualDJ、NeuralMix等知名专业音频软件中,大大提升了它的知名度。
作为早期的AI音源分离算法,Spleeter相对中置声道提取的效果有质的飞跃,并且首次让普罗大众能够享受到普通电脑也能跑得动的4音源分离模型,现在仍在作为很多音源分离比赛的Baseline。
We present and release a new tool for music source separation with pre-trained models called Spleeter. Spleeter was designed with ease of use, separation performance, and speed in mind. Spleeter is based on Tensorflow (Abadi, 2015) and makes it possible to:
split music audio files into several stems with a single command line using pre-trained models. A music audio file can be separated into 2 stems (vocals and accompaniments), 4 stems (vocals, drums, bass, and other) or 5 stems (vocals, drums, bass, piano and other).
train source separation models or fine-tune pre-trained ones with Tensorflow (provided you have a dataset of isolated sources).
The performance of the pre-trained models are very close to the published state-of-the-art and is one of the best performing 4 stems separation model on the common musdb18 benchmark (Rafii, Liutkus, Stöter, Mimilakis, & Bittner, 2017) to be publicly released. Spleeter is also very fast as it can separate a mix audio file into 4 stems 100 times faster than real-time (we note, though, that the model cannot be applied in real-time as it needs buffering) on a single Graphics Processing Unit (GPU) using the pre-trained 4-stems model

Demucs
Demucs来自Facebook Research团队,它的发源晚于Spleeter,早于MDX-Net,并且经历过4个大版本的迭代,每一代的模型结构都被大改。Demucs的生成质量从v3开始大幅质变,一度领先行业平均水平,v4是现在最强的开源乐器分离单模型,v1和v2的网络模型被用作MDX-net其中的一部分。
Demucs v1 & v2的模型理论来自于《Music Source Separation in the Waveform Domain》:
Contrarily to many audio synthesis tasks where the best performances are achieved by models that directly generate the waveform, the state-of-the-art in source separation for music is to compute masks on the magnitude spectrum. In this paper, we compare two waveform domain architectures. We first adapt Conv-Tasnet, initially developed for speech source separation, to the task of music source separation. While Conv- Tasnet beats many existing spectrogram-domain methods, it suffers from significant artifacts, as shown by human evaluations. We propose instead Demucs, a novel waveform-to-waveform model, with a U-Net structure and bidirectional LSTM. Ex- periments on the MusDB dataset show that, with proper data augmentation, Demucs beats all existing state-of-the-art architectures, including Conv-Tasnet, with 6.3 SDR on average, (and up to 6.8 with 150 extra training songs, even surpassing the IRM oracle for the bass source). Using recent development in model quantization, Demucs can be compressed down to 120MB without any loss of accuracy. We also provide human evaluations, showing that Demucs benefit from a large advantage in terms of the naturalness of the audio. However, it suffers from some bleeding, especially between the vocals and other source.
与许多音频合成任务不同,其中最佳性能由直接生成波形的模型实现,音乐源分离的最新技术是在幅度谱上计算掩码。在本文中,我们比较了两种波形域架构。首先,我们将最初用于语音源分离的Conv-Tasnet适应到音乐源分离任务上。虽然Conv-Tasnet在许多现有的频谱图域方法中表现出色,但人类评估结果显示其存在显著的伪影问题。相反,我们提出了一种新颖的波形到波形模型Demucs,它具有U-Net结构和双向LSTM。在MusDB数据集上的实验表明,在适当的数据增强条件下,Demucs在平均SDR上击败了所有现有的最先进架构,包括Conv-Tasnet,在平均SDR上提升了6.3(甚至通过额外训练150首歌曲,最高可达6.8,甚至超过了贝斯源的IRM oracle)。利用模型量化的最新发展,Demucs可以压缩到120MB,而不会损失任何准确性。我们还提供了人类评估结果,显示Demucs在音频的自然度方面具有显著优势。然而,它在某些情况下会出现声音“渗透”,特别是在人声和其他源之间。
Demucs v3的模型理论来自于《Hybrid Spectrogram and Waveform Source Separation》:
Source separation models either work on the spectrogram or waveform domain. In this work, we show how to perform end-to-end hybrid source separation, letting the model decide which domain is best suited for each source, and even combining both. The proposed hybrid version of the Demucs architecture (Défossez et al., 2019) won the Music Demixing Challenge 2021 organized by Sony.
This architecture also comes with additional improvements, such as compressed residual branches, local attention or singular value regularization. Overall, a 1.4 dB improvement of the Signal-To-Distortion (SDR) was observed across all sources as measured on the MusDB HQ dataset (Rafii et al., 2019), an improvement confirmed by human subjective evaluation, with an overall quality rated at 2.83 out of 5 (2.36 for the non hybrid Demucs), and absence of contamination at 3.04 (against 2.37 for the non hybrid Demucs and 2.44 for the second ranking model submitted at the competition).
音乐源分离模型可以在频谱图域或波形域上进行操作。在本研究中,我们展示了如何进行端到端的混合源分离,让模型决定每个源最适合的域,甚至将两者结合起来。提出的Demucs架构(Défossez等,2019)的混合版本赢得了由索尼主办的2021年音乐分离挑战。
这个架构还带来了额外的改进,如压缩残差分支、局部注意力或奇异值正则化。总体而言,在MusDB HQ数据集(Rafii等,2019)上对所有源的信号失真比(SDR)观察到了1.4 dB的提高,这一改进在人类主观评估中得到了证实,整体质量评分为5分制中的2.83分(非混合Demucs为2.36分),无污染评分为3.04分(非混合Demucs为2.37分,而在竞赛中排名第二的模型为2.44分)。
Demucs v4的模型理论来自于《Hybrid Spectrogram and Waveform Source Separation》:
A natural question arising in Music Source Separation (MSS) is whether long range contextual information is useful, or whether local acoustic features are sufficient. In other fields, attention based Transformers have shown their ability to integrate information over long sequences. In this work, we introduce Hybrid Transformer Demucs (HT Demucs), an hybrid temporal/spectral bi-U-Net based on Hybrid Demucs, where the innermost layers are replaced by a cross-domain Transformer Encoder, using self-attention within one domain, and cross-attention across domains. While it performs poorly when trained only on MUSDB [3], we show that it outper-forms Hybrid Demucs (trained on the same data) by 0.45 dB of SDR when using 800 extra training songs. Using sparse at-tention kernels to extend its receptive field, and per sourcefine-tuning, we achieve state-of-the-art results on MUSDB with extra training data, with 9.20 dB of SDR.
在音乐源分离(MSS)领域中,一个自然的问题是,长程上下文信息是否有用,或者局部声学特征是否足够。在其他领域中,基于注意力机制的Transformer 已经展示了它们整合长序列信息的能力。在本研究中,我们引入了混合Transformer Demucs(HT Demucs),这是一个基于混合Demucs 架构的混合时域/频谱双U-Net,其中最内层被跨域Transformer编码器所取代,该编码器在一个域内使用自注意力机制,在跨域之间使用交叉注意力机制。虽然当仅在MUSDB 上训练时性能较差,但我们展示了当使用额外的800个训练歌曲时,它在SDR上比混合Demucs(在相同数据上训练)提高了0.45 dB。通过使用稀疏注意力核扩展其感受野,并对每个源进行微调,我们在使用额外训练数据时在MUSDB上实现了最先进的结果,SDR达到了9.20 dB。
目前,Demucs v4是面向乐器分离效果最好的单模型,但由于其使用了一个庞大的Transformer结构,在推理时速度格外慢,而且显存占用极高,必须要求有GPU才能完成推理。


MDX-net
一些最先进的方法已经表明,通过堆叠许多具有跳跃连接的层(stacking many layers with many skip connections),可以提高SDR性能。尽管这种深度且复杂的架构表现出色,但通常需要大量的计算资源和时间进行训练和评估。因而Minseok Kim等人提出了一种名为KUIELab-MDX-Net的音乐分离双流神经网络,展现了性能和所需资源之间的良好平衡。所提出的模型具有时频分支和时域分支,每个分支分别分离音轨。它将两个流的结果混合在一起生成最终的Estimation。KUIELab-MDX-Net在ISMIR 2021的音乐分离挑战中在排行榜A上获得第二名,在排行榜B上获得第三名。
相比Spleeter只对频域进行处理,MDX-net同时对时域和频域都有所涉及,并且通过复杂的UNet网络使得分离质量达成一个质的飞跃。
作为学术界目前最受欢迎的AI音频分离算法,现在在开源社区已经产生了非常多高质量的、不同针对性的预训练模型。迄今为止MDX-NET-Voc_FT、Kim Vocal 2等预训练模型仍然在MVSEP排行榜中名列前茅。Kim Vocal系列预训练模型甚至能够搭配其他模型提供主唱与和声的分离能力,还有一些模型能够从Reverb中提取出干音。



DLC: “团子AI”
知名商业收费产品,自称“你们的SDR评分标准与人耳听感背道而驰,我自己干自己的,不跟你们卷刷分了,我最新的模型业界听感最强”,但是收费、不发论文、不开源,只在博客很笼统地描述了技术方法。
摘取Audio Separation Discord团队对团子AI的评价:
The combination of 3 different aggression settings (mostly the most aggressive in busy mix parts) gives the best results for Childish Gambino - Algorithm vs our top ensemble settings so far. But it's still far from ideal (and [not only] the most aggressive one makes instruments very muffled [but vocals are better cancelled too], although our separation makes it even a bit worse in more busy mix fragment).
As for drums - better than GSEP, worse than Demucs 4 ft 32, although a bit better hihat. Not too easy track and already shows some diffrences between just GSEP and Demucs when the latter has more muffled hi-hats, but better snare, and it rather happens a lot of times
Also, it automatically picks the first fragment for preview when vocal appears, so it is difficult to write something like AS Tool for that (probably manipulations by manual mixing of fake vocals would be needed).
Very promising results, not gonna lie.
They wrote once somewhere about limited previews for stem mode (for more than 2 mode) and free credits, but haven’t encountered it yet.
They’re accused by aufr33 to use some of UVR models for 2 stems without crediting the source (and taking money for that).
成熟解决方案
介绍完了主流算法的发展历史之后,我们能够知道,目前效果最好的模型分别是Demucs v4和MDX-Net的衍生模型,他们对不同的音部有所侧重。取决于你的需求,多数情况下在你仅有提取人声的要求时,使用MDX-NET Voc FT效果较好;而你要求对乐器进行分离(比如扒谱等工程)时,你更应该去关注Demucs v4 htdemucs_ft这个模型。
UVR的使用在此不再赘述,其它地方已经有很多现成的教程了。
在这里介绍几个热门模型的来源,以供刚摸到UVR时一头雾水的玩家快速选出合适的模型:
Demucs V4
htdemucs
: first version of Hybrid Transformer Demucs. Trained on MusDB + 800 songs. Default model.htdemucs_ft
: fine-tuned version ofhtdemucs
, separation will take 4 times more time but might be a bit better. Same training set ashtdemucs
.htdemucs_6s
: 6 sources version ofhtdemucs
, withpiano
andguitar
being added as sources. Note that thepiano
source is not working great at the moment.hdemucs_mmi
: Hybrid Demucs v3, retrained on MusDB + 800 songs.mdx
: trained only on MusDB HQ, winning model on track A at the MDX challenge.mdx_extra
: trained with extra training data (including MusDB test set), ranked 2nd on the track B of the MDX challenge.mdx_q
,mdx_extra_q
: quantized version of the previous models. Smaller download and storage but quality can be slightly worse.
Demucs V3
mdx
: trained only on MusDB HQ, winning model on track A at the MDX challenge.mdx_extra
: trained with extra training data (including MusDB test set), ranked 2nd on the track B of the MDX challenge.mdx_q
,mdx_extra_q
: quantized version of the previous models. Smaller download and storage but quality can be slightly worse.mdx_extra_q
is the default model used.
MDX-Net
关于 MDX-UVR 模型,您需要知道的是它们分为Inst模型和Vocal模型,器乐模型总是会在人声中留下一些器乐残音,反之亦然——人声模型更有可能在器乐中留下一些人声残音。但在一些特定的歌曲中,打破这一规则仍会对你有好处,这可能取决于特定的歌曲。通常情况下,如果要处理人声残留,乐器模型应该能提供更好的乐器效果。此外,MDX-UVR 模型有时会拾取到无法恢复的 midi 音效。
kim vocal 1&2: Kimberley Jensen发布的针对Vocal fine-tuned的MDX比赛用模型,这个模型在Sound Demixing Challenge 2023的MDX'23比赛中获得了第3名的成绩,窄带模型,在生产领域只适用于人声
kim Inst: 同理,Kimberley Jensen发布的针对Instrument的模型,与 inst3/464 相比,它能获得更清晰的结果和更好的 SDR,但有时也会产生更多噪音。这个模型是cutoff的,会切除17.7KHz以上的频率,不适用于生产,只适用于比赛刷分

Inst HQ 3: 全频域的针对乐器的分离模型,目前为止细节效果在第一梯队,但是对弦乐的处理有问题。HQ3 generally has problems with strings. mdx_extra from Demucs 3/4 had better result here, sometimes 6s model can be good compensation in ensemble for these lost instruments, but HQ3 gives some extra details compared to those.
同时,HQ 3对部分吹奏乐器的处理也有一些问题,处理笛子和小号的效果不如其它模型。
VOC FT: 目前为止效果最好的Vocal分离单模型,并且在MVSEP排行榜名列前茅,但是是窄带模型
inst HQ_1 (450)/HQ_2 (498) (full band): 在大多数情况下,都能使用高质量的模型。后者的 SDR 更好一些,人声残留可能更少一些。虽然不像 inst3 或kim ft那样少,但也是一个很好的起点。
Inst 3: 窄带模型,结果会更浑浊一些,但在某些情况下也会更平衡一些
Inst Main: 相比Inst 3对Vocal的残留更多
后缀带有Karaoke的系列: Vocal只去除主唱,保留和声的模型,目前效果最好的是UVR-MDX-NET Karoke 2
UVR-MDX-NET 1, UVR-MDX-NET 2, UVR-MDX-NET 3: UVR团队自训练的模型,用于Vocal分离,其中模型1获得了9.703的SDR分数,2和3是减少参数的模型。这三个模型都有14.7kHZ的cutoff
行业前沿在哪里
答案是The Music Demixing (MDX) Challenge,由索尼牵头每年举办的音源分离挑战赛,你可以在这个比赛的Leaderboard看到当前行业最前沿的算法和作者。

2023年的MDX挑战赛现在C轮已经结束,排名第一的是字节跳动的SAMI(模型未放出),分数断层式领先于后面的选手。第二名ZFTurbo,则是本文将要介绍的MVSEP-MDX23的作者。第三名Kimberley Jensen,我们在上文介绍过她的模型。

那么要在哪里找到能落地使用的算法呢?非常非常多人在第一次接触到UVR5的时候,都会去问,最好的模型是哪一个?我浏览过中文互联网上大部分的UVR教学,包括b站的各种视频和专栏,都是随手给出一屏幕的搭配,教你这样填就好,却没有人拿出真正的实战数据来证明自己用的算法和参数相比别人更好,而对于多数用户的电脑性能而言,去逐个验证又十分耗时。
在海外社区也有这样的疑问,而实际上UVR5的开发团队曾经在issue中解释过这个问题:
The answer to the most asked question: What is the model which provides the best results? [Read this, very important info inside!] #344
Hello everyone.
I would like to address a question I've repeatedly seen published both in this forum and other ones as well. Given the amount of available modules which have now been integrated into UVR, obviously a lot of people are confused as which one may provide the best results. The question I see a lot, therefore, is the following:
"What is the best module which provides the best results? What setting should I use with it?" and its variations.
Before I give you the answer, let me introduce to the following website: mvsep.com -- This is a website where you can upload a song of your choice and utilize all of the Stem Separation AI modules currently available to have it processed. I encourage you to check it out, it's an amazing tool. Keep in mind that due to high traffic, it is likely you will have to wait in a queue for your songs to be processed.
The developers over at Mvsep launched a very interesting initiative months ago, called "Quality Checker". As I mentioned before, there are plenty of modules available and Mvsep thought about a method to establish which of them offers the best results. This is done by downloading a standard database and have a given module process it, then uploading the results onto their site.
The results and corresponding metrics are published on their website. You can check them here: [一个链接] -- This is called the "Leaderboard".
So, back to the question: Which module provides the best results? Well, you guessed it... The answer is provided by the Leaderboard itself. As you can see, there is no single module which offers the best results, but rather it is recommended to use a combination of modules. UVR has a function integrated within it called "Ensemble", which does exactly that: It processes a given song by utilizing one or more modules of your choice.
Now, back to the Leaderboard. At the time I'm writing this, the following combination provides the highest results:
MDX-Net: kim vocal model fine tuned (old) + UVR-MDX-NET_Main_427 + Demucs: v4 | htdemucs_ft - Ensemble Algorithm: Avg/Avg - Shifts: 10 - Overlap: 0.25
You notice they have used three different modules here (Kim vocal, MDX Net Main 427, and the latest fine-tuned demucs v4). If you hover your mouse to the "?" in the page corresponding to the combo, it also provides you with the UVR settings which were used to create the combo.
So, there you have it. You should check the Leaderboard page often to see which combo is getting the highest score, and then simply replicate it with UVR. Keep in mind that modules are constantly modified and/or trained, so it is likely the Leaderboard will change quite often.
Furthermore, you can provide your own methodology (combo) and results by visiting the Quality Checker page like I wrote above, download the database, and apply your own chosen modules, then uploading the final results. I strongly encourage everyone to do so: the more tests, the more results.
As a final note, I want to thank @Anjok07 for his amazing job on UVR, which has now turned into a fantastic, and best tool at the world's disposal to create stems. Thanks a lot for all of your hard work!
大家好。
我想谈谈我在本论坛和其他论坛上反复看到的一个问题。鉴于 UVR 中已集成了大量可用模型,显然很多人都搞不清楚哪个模型能提供最佳效果。因此,我经常遇到的问题如下:
"哪个模块效果最好?我应该用什么设置?"以及各种不同的问题。
在给出答案之前,请允许我向您介绍以下网站:mvsep -- 在这个网站上,您可以上传一首自己选择的歌曲,并使用目前可用的所有音源分离 AI 模型对其进行处理。我鼓励你去看看,这是一个非常棒的工具。请记住,由于流量很大,您可能需要排队等待歌曲处理。
几个月前,Mvsep 的开发人员推出了一项非常有趣的计划,名为 "Quality Checker"。正如我之前提到的,有很多可用的模型,而 Mvsep 想出了一种方法来确定哪个模块的效果最好。具体做法是下载一个标准数据库,让特定模型对其进行处理,然后将结果上传到他们的网站上。
结果和相应的指标会在他们的网站上公布。您可以在这里查看:MVSEP Leaderboard -- 这就是所谓的 "排行榜"。
那么,回到问题上来: 哪个模型提供的结果最好?你猜对了... 答案由排行榜本身提供。正如你所看到的,没有一个模型能提供最好的结果,而是建议使用模型组合。UVR 集成了一个名为 "Ensemble "的功能,它的作用正是如此: 它可以利用您选择的一个或多个模型来处理指定歌曲。
现在,回到排行榜。在我写这篇文章时,以下组合提供了最高的结果:
MDX-Net: kim vocal model fine tuned (old) + UVR-MDX-NET_Main_427 + Demucs: v4 | htdemucs_ft - Ensemble Algorithm: Avg/Avg - Shifts: 10 - Overlap: 0.25
你会发现他们在这里使用了三个不同的模型(Kim vocal、MDX Net Main 427 和最新的fine-tuned demucs v4)。如果将鼠标悬停在组合对应页面的"? "上,还可以看到创建组合时使用的 UVR 设置。
就是这样。您应该经常查看排行榜页面,看看哪个组合得分最高,然后用 UVR 复制即可。请记住,模型是不断修改和/或训练的,因此排行榜很可能会经常变化。
此外,您还可以像我上面写的那样,访问Quality Checker页面,下载数据库,应用自己选择的模型,然后上传最终结果,从而提供自己的方法(组合)和结果。我强烈建议大家这样做:测试越多,结果越多。
最后,我要感谢 @Anjok07 在 UVR 上所做的出色工作,UVR 现在已经成为世界上最好的Stem创建工具。非常感谢你的辛勤工作!
2022.12.26
简而言之,MVSEP就是音源分离的实战天榜,它的成绩一直在实时更新,直到我发布这篇文章的时候,MVSEP-MDX23创造的成绩已经被其它融合算法得分微微超过。
MVSEP的排行榜分Bass、Drums、Other、Vocals、Instrum,你想要得到哪个声部更好的效果就去查看对应的榜单,多数情况下关注Vocals和Instrum就已经足够。

我们可以看到,Vocal天榜目前仍旧是被Semi断崖式领先(第一名是原数据集直接上传获取评分),排在其后的是基于MVSEP的融合模型以及本文的主角。所有成绩都可以点进去查看详情,多数成绩的提交者都会介绍他们这套算法的参数:

混合方案是目前的终极答案
我们能够在天榜发现,前2页除了Demucs v4以外基本已经看不见单模型的影子。如Github issue所说,目前追求效果最好的方法就是将不同模型按照权重融合在一起,因此除了Semi以外,天榜名列前茅的成绩无一例外都是多模型融合,对不同的声部运行对应擅长的模型,甚至用多个模型同时处理一个声部,再按照权重混合。
MVSEP-MDX23是本届MDX比赛目前第二名的ZFTurbo开源的模型,Github地址ZFTurbo/MVSEP-MDX23-music-separation-model,它采用了特殊的模型融合方法因而与UVR5不兼容,但项目直接提供了Colab链接和Windows双击即用的Release版本:

但很遗憾,MVSEP-MDX23算法在参与比赛的时候是全力为Vocal优化的,在Github issue中ZFTurbo承认这个模型虽然表现极佳,在处理时对输入的音频切除了高频并且原封不动的还给Instrumental。

针对这个问题,jarredou/MVSEP-MDX23-Colab_v2 fork了该项目并且加以优化,现在由MVSEP-MDX23-Colab fork v2.2创造的成绩在MVSEP天榜中,vocal排名第7,Instrument排名第6,这是我们目前能够获取的最好开源成绩。排名靠前的MVSep Ensemble模型都依赖未公开发布的MDX23C模型,这个模型是MVSep网站目前的收费内容,需要付费会员才能够保存wav文件:


说回MVSEP-MDX23,如果你需要运行这个算法进行音源分离,需要确保有至少11GB的显存,否则无法运行。

如果你的配置不足以本地运行,可以直接去jarredou/MVSEP-MDX23-Colab_v2点击他们的colab链接(需要魔法),将你想分离的文件上传到实例网盘上,直接Runtime-Run All运行即可:

各种weight参数可以直接去mvsep天榜抄,chunk size降低到不会报错为止。

如果你的硬件配置足够本地运行,那么部署就遵循标准的GitHub三部曲:clone,安装环境,运行。
由于本地运行环境和Colab不太一样,vscode的jupyter无法识别colab的那种交互性注释。但无所谓,直接改写数值即可,同时把input和output_folder改成你电脑内的目录,例如:
如果参考MVSep天榜的成绩,那么参数应当如下:
把音频文件放到input目录下,点击运行,等待即可。
由于这个notebook使用的是“!”方法调用命令行执行python脚本,所以在运行过程中看不见输出结果,在运行完毕后结果才会一并蹦出来,当然改成%run也很简单,但是懒人包这样子跑也无所谓。

我们可以看出,v2.2版本目前一共使用了Demucs_ft, MDXv3 demo, UVR-MDX-VOC-FT, UVR-MDX-VOC-FT Fullband SRS, UVR-MDX-HQ3-Instr, htdemucs_ft, htdemucs, htdemucs_6s, htdemucs_mmi总共9个模型来混合输出结果,可谓是终极融合怪。
运行完之后就去output目录寻找成果吧。

以下是使用MVSEP-MDX23-Colab_v2分别对日式摇滚和电子音乐进行分离的结果展示。可以发现,这个算法对vocal的分离基本已经达到无懈可击的程度,不受重混音和各种效果器的影响。同时归功于htdemucs的加持和项目作者的优化,这个算法对鼓组和bass的分离也已经基本满足扒谱甚至非专业生产水平。

为了测试重混音vocal分离,我把目标盯上了b站各种歌势的翻唱作品,多数歌势会给自己的翻唱加非常非常重的混音,以此来掩盖可能出现的缺陷,尤其是最近比较小火的《Golden Hour》,很多人的翻唱把混音开得我听得头疼。
为了增加难度,我选择了@早稻叽 翻唱的神中神作品《海色》,这首歌是一首非常激烈和饱满的JRock,在尝试分离这种类型的曲子的时候,全频的电吉他音无时无刻不在干扰Vocal,加之翻唱作品混音拖得很长,更是难上加难。

结果证明,MVSEP-MDX23对这首翻唱作品的分离做得基本上完美,并且在聆听分离出来的伴奏之后发现,叽叽使用的伴奏有明显的中空和凹陷感,判断可能是通过比较旧的技术手段提取伴奏,或者后期加了比较重的两头翘EQ。
于是我通过耐心地搜索,找到了这首歌曲官方附赠的Instrumental Version,并做出了这个对比视频。叽叽唱的相比原曲升了2个半音,很强捏!
作为歌势,在产出作品的时候还是有必要追求原伴奏质量的极限,以往的AI发展不尽完美,但到了2023,我认为有好的工具(算法)就应当用起来。
当然,跟我在视频里说的一样,在准备动用技术手段之前,无论如何先去找找发行EP里有没有附赠伴奏版,毕竟再先进的技术都不如原工程导出。