抖一抖,细节有——数字音频的抖动

量化误差是数字音频对模拟音频的记录中,不可避免的一个问题。通过抖动技术,可以在一定程度上规避量化噪声的影响,获得更加完整的音频体验。根据我的观察,“抖动”这个概念仍然存在曲解和误读,因此我认为有必要写一篇文章讲讲。
1. 量化过程存在的问题
我在关于采样中的量化的文章中,讲过什么是量化、量化会带来什么问题,如果需要复习可以参考《两耳不闻白噪声?采样率、动态范围与实际应用》一文。简单来说,量化是为了让模拟信号可以用数字的方式记录下来,由于数字的记录是“分立的”,模拟信号是“连续的”,所以为了记录模拟信号,我们必须容忍四舍五入过程中的误差。

这样的舍入量化带来的误差在大多数情况下可以类比于白噪声,也就是每个频率的能量都均匀分布:


上面的量化噪声是来自一个吉他录音的,吉他的频率分布并不是宽谱的,而是多数集中在中高频。所以量化噪声并不是严格的白噪声。真正的白噪声的波形和频谱是:

更极端的例子是正弦波的量化误差:

由于正弦波存在周期性,且频率单一,因此它的量化噪声不再是白噪声,而是和正弦波的频率相关。因此它的量化噪声并不会像白噪声一样“淹没在不经意间”,而是会伴随着正弦波的频率一直干扰你的听觉。
听听看降低比特后,量化噪声对听觉的干扰吧,以下例子是一个100Hz到440Hz扫频的正弦波,首先是原始音频:

降比特到4bit后的音频:

可以明显听到量化噪声和原始音频是相关的。只不过大多情况下我们不会听到单音,所以量化噪声接近于白噪声。
白噪声是生活中常见的噪声,由于没有显著频率突出,它更加“低调”。因此我们要想办法让量化噪声不要太突出,因此我们需要——抖动。
2. 抖动的意义
抖动这个词的翻译属于是,理解的人觉得很贴切,不理解的人则不知所云。为了更好地解释,让我们用图像领域的应用举个例子吧。 我随手在我桌子上拍下我的杯子:

熟练掌握Word/WPS的同学应该知道这四个图形选项:

灰度,就是把图片弄成灰白色:

而黑白,就是直接四舍五入,暗的和比较暗的,都变成黑的;亮的和比较亮的,都变成白的,简单粗暴:

相比之下,灰度肯定比黑白看得到更多细节。
这个过程是不是有点熟悉?灰度照片里,为什么能记录那么清晰的细节呢?因为电脑用8bit的数据来记录每个像素点的灰度值,告诉你黑的有多黑,白的有多白,不黑不白的地方也能给你安排出个分级。8bit可以记录256个量化等级,所以每个像素可以有256个不同的灰度值,动态范围也足够表现图片细节了。而黑白图片则是简单粗暴地用1bit来记录图象,非黑即白。
数字技术其实是共通的。
可惜的是,这个杯子有太多细节在黑白图中被隐藏了。我们能大概知道光影的变化,但是其他的信息完全丢失,有没有办法让黑白图保留更多一些的细节呢?有。
首先,在原始图片上叠加一层随机的白噪声(每个像素点的灰度值都要叠加):

虽然叠加噪声会影响画质,但是这是节约文件大小必须付出的代价。对这张照片进行黑白处理之后,我们会得到——

杯子的细节保留下来了,书桌的光影变化也保存下来了,键盘的细节也可以看到,甚至还能看到桌子上的木纹。 对彩色照片同样有这样的处理:

像这样,在降低比特深度的操作之前,提前加入一层噪声,然后再降比特,可以获得相比不加噪声更多的细节,这就是抖动。 音频技术中的抖动也是如此。
3. 音频中的抖动
音频降低比特会产生量化噪声。在这一步之前可以先叠加一层噪声,再进行量化,会使得量化噪声不再明显,而且有可能保留更多的信息。叠加的噪声的功率应该不大不小,恰好分布在最低一级量化单位上。 还记得这个钢琴吗:

干净的和弦尾音,还有一个踏板声。频谱如下:

如果直接对它进行降比特,则会产生标题1中提到的,相关性的量化噪声:


用抖动的思路,叠加一层8bit的专属白噪声(注意此时文件还是24bit):


在此基础上降比特,听起来尾音可以一直保留了:


此时的频谱和24bit下相差无几,低能量部分也可以保存下来!最后的踏板声得以保留。但是听起来还是很吵啊,噪声干扰太大了。
聪明的工程师们想到了人耳的听觉特点,众所周知的等响曲线告诉我们,人耳对不同频率的声音敏感度不同,尤其是极高频(大于16kHz),很多人已经听不到了。

换个思路,我们同样叠加进一段噪声,但是这段噪声并不是常用的白噪声,而是把人耳敏感的频率能量分配多一些给不敏感的频段,这样就可以在实现抖动的作用的同时,还能保证人耳听到的部分尽量干净。
因此出现了新的方法:噪声整形(Noise Shaping)。
不同的整形方式各不相同,但是基本思路都一样——中高频减少,极高频增加。有点增加采样率来提升信噪比的意思了。(可以参考之前文章)
iZotope公司的Ozone母带插件提供完整的Dither工具,如图中的Noise Shaping部分,从Off(不整形,完全白噪声)到Max(高度扭曲的频谱,高频区有大量能量存余),代表着这个流程的不同程度。应当结合实际歌曲需要来调整。


听听看经过噪声整形后的低比特音频吧:

可以从波形看到,由于高频信号的增加,噪音区的振幅增大了,不再是严格的1量化单位。但是听起来反而不太吵。

这是最强的噪声整形的音频:

高频区域已经报警了。而且整个波形都淹没在噪声中,看不到衰减的趋势。但是不要被波形骗了,从频谱可以看到,中低频的部分会更加清晰。但是相比上面的音频,低频更多了。这是一个取舍的过程,找到最适合歌曲的整形方式即可。

总的来说,抖动就是通过增加一层不太明显的噪声,使得歌曲信息不会因为量化而产生过分的扭曲,可以尽可能地保留信息量。虽然抖动对音频本身是一种破坏,但在降比特的时候,可以拯救低电平信号。毕竟“有,但不完美”比“没有”更好。
由于抖动本质就是增加噪声,所以请不要在任何效果器之前进行抖动。否则效果器可能会对这一层噪声进行改变,进而影响预期效果。换句话说,抖动必须紧接在降比特操作之前,不可替换位置。
显而易见的结论:1. 降低比特深度后再抖动——无意义;2. 抖动之后再进行其他处理——无意义;3. 从录音到母带每个环节都在24bit以上——无需抖动。(动态范围已经超过世界上所有音频接口,不需考虑量化噪声)
还有人会问,当今CD的标准采样深度是16bit,这个情况下的音频的量化噪声已经很小了,是否抖动听起来没区别,这种情况下还有意义吗?
是的,当今很多歌曲响度极大,动辄超过-9LUFS,甚至有达到-5LUFS、-3LUFS的。这类歌曲抖动作用确实不大。如果你的扬声器开到可以听到量化噪声的程度,那么当你听歌曲本身的时候差不多也要聋了。
但是音乐不只是大响度的。赵季平的《远情》现场版录音,它的波形是这样的:

歌曲的响度是-24.0LKFS,但是峰值依然在-0.1dB,已经到了“将爆未爆”的程度。这就代表着这首歌的动态范围将会非常大。

在前面的独唱部分,峰值电平是-27.7dB,平均响度是-44.8LKFS,在这个情况下,16bit的量化噪声已经不能忽视了。因此这首歌的母带制作事实上也经过了抖动,而且使用了噪声整形,能量几乎集中在16kHz以上的最高频部分。


所以,抖动在这类大动态的音乐中,更具有意义,甚至是不可或缺。
为了保险起见,你可以在你所有准备降比特到16bit的歌曲的母带上都使用抖动。再提醒一次,如果你的母带文件也是24bit的,则抖动无意义。
本文作者:艾夫
音乐制作人、编曲人、混音师、艾楽音乐工作室主理人、华中科技大学光电信息专业硕士。

*文中观点为作者独立观点,不完全代表本号立场,仅供参考交流学习;
*本文部分配图源自网络,不用于商业用途;如有侵权,请联系本号处理。