聊一聊一些荧幕和现场背后的音频故事（8）--好动态vs细腻感，你更喜欢哪个？

2019-10-29 15:12 作者:盲人号 0人读过 | 我要投稿

解释这个问题之前，我觉得先解释一下人耳的听力解构和听觉组成会比较有效。

虽然就所谓的“动感”，“律动”，也可以靠震动被皮肤感受，但这里只涉及音频文件的听感

人接受听觉信息的主要途径是通过空气中传播的震动，在穿过我们的耳道后被我们的听觉神经认知，那么，也就是说，我们听觉能察觉的空气震动频率也受限于这个物理结构影响，虽然皮肤等能也能传递，但和从听觉体验到是需要区别开的。

那，既然听觉是靠震动传播的。

人耳也有它适用的听觉频率范围 ,这个频率范围在科学研究下被定义为20hz-20000hz，随着年龄和使用习惯的不同，不同人的听力也会有不同程度的损耗，比如低频延展只能到60hz，或高频听感只能到17000hz。

而根据播放设备的频响设计以及外放设备存在的所谓泛射现象，所以并不存在所谓完全客观的“优秀”声学环境，那么，我们的讨论标准就先集中在所谓的主观同条件分析上会比较有效。

泛射现象：衍射现象是指波在传播过程中遇到障碍物时，在障碍物的边缘，一些波偏离直线传播而进入障碍物后面的“阴影区”的现象。

这个现象在耳机和音箱设备中的体现就是会产生反射驻波和原声波抵消或叠加，
这过会造成所谓不架空的方形音箱和封闭式耳机的“低频过多”现象

然后顺路我们来解释一个概念----hi-fi

hi-fi，是英语High-Fidelity的缩写，翻译为“高保真”，其定义是：与原来的声音高度相似的重放声音。（这个从概念上和HDR其实是一个意思）

但就像是无论多完美的数字编码，根据实际播放设备的不同也会有不同的表现，因为扬声器和耳机的振膜材质，导电铜线圈的绕圈数量，密度，空气湿度，环境反射音等等，所以如果是数字解码层面解释，我们可以说一个放大器或播放器拥有“高保真”，但却无法正确去定义所谓的重放高保真。

所以，在实际对音频做后期处理的时候，如果为了做出差异化，我们必然会选择去割舍一部分听感和信息，以保证在不同播放设备上能达到近似的要求。

那么，既然音乐和广播电视音频文件本身的文字和学术性内容不能改变，我们怎么从心理学角度去分析一个音频如何更加“打动人”那？

这里引入2个名词，采样率和动态范围。

1.动态范围

这个词看起来非常好理解，但实际应用其实就是利用了这两者的原理。

我们知道在数字格式中有所谓8bit，16bit,24bit,32/64bit压缩深度。

这个在模拟环境中就是用来再现声压级的

从听阈到痛阈，声压的绝对值相差1000000倍。显然,用声压的绝对值表示声音的大小是不方便的。为了便于应用，人们便根据人耳对声音强弱变化响应的特性，引出一个对数量来表示声音的大小，这就是声压级，单位分贝（dB）,公式SPL=20LOG(10)[p(e)/p(ref)]，符号SPL，在空气中参考声压p(ref）一般取为2*10E-5帕，这个数值是正常人耳对1千赫声音刚刚能觉察其存在的声压值，也就是1千赫声音的可听阈声压。一般讲，低于这一声压值，人耳就再也不能觉察出这个声音的存在了。显然该可听阈声压的声压级即为零分贝。

至于采样深度，这个计算公式是f=采样深度，动态范围=20*log(2^f)

简单解释就是，8bit=48db,16bit=96db,24bit=144db,32bit=192db,64bit=385db

那么，采样深度不同对听感有区别嘛？

有区别，而且还很明显，前提是你听的是真实的24bit音源和16bit音源，而不是转换的或者是后期混音过的。bit是形容声音分辨率的，而在录音的时候24bit相对16bit会减6db录音。也就是说，听24bit的音乐可以听到更多的小声音和更多的大声音，细节更多了。当然这样可能会造成你感觉的声音下沉。但是在实际情况下96db和140db的信噪比一般人根本听不出来，事实上80db以上的信噪比不在安静环境下就很难区分了。

但是更多的bit不一定就好。美国人曾经发表过一遍论文，内容是邀请了5个人来试听24bit和16bit的声音。5个人中以音乐工作者为主，但也有普通人。测试方法是无序多次播放相同音频的不同版本，让他们区分哪一次是24bit，哪一次是16bit。结论很有意思，100% 的人，包括普通人都可以分辨出24bit和16bit的不同，但是他们说不出来哪个是24bit哪个是16bit，之能确定第几段几段是一个版本的，另几段几段是另一个版本的。而且有些觉得声音更柔美更自然的反而是16bit的音频。最后，论文阐述了，对回放而言，并不是bit越高越好，比如舞曲，电音和混音，bit高将会提供更多的噪音多过声音的细节。而对于人声，交响乐之类的器械乐器，高bit将会提供更好的感受，更多的细节。
所以你能听出却别来并不奇怪。

2.采样率

我们经常会说，这个人声更加细腻，这个旋律线条感更好，至于这个线条感，很大程度上就是依靠更高的采样率来达到的

采样频率，也称为采样速度或者采样率，定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样频率的倒数是采样周期或者叫作采样时间，它是采样之间的时间间隔。通俗的讲采样频率是指计算机每秒钟采集多少个信号样本。

连续信号在时间（或空间）上以某种方式变化着，而采样过程则是在时间（或空间）上，以T为单位间隔来测量连续信号的值。T称为采样间隔。在实际中，如果信号是时间的函数，通常他们的采样间隔都很小，一般在毫秒、微秒的量级。采样过程产生一系列的数字，称为样本。样本代表了原来的信号。每一个样本都对应着测量这一样本的特定时间点，而采样间隔的倒数，1/T即为采样频率，fs，其单位为样本/秒，即赫兹(hertz)。

8000Hz 电话所用采样率，对于人的说话已经足够

11025Hz 获得的声音称为电话音质，基本上能让你分辨出通话人的声音

22050Hz 无线电广播所用采样率，广播音质

32000Hz miniDV数码视频camcorder、DAT(LPmode)所用采样率

44100Hz 音频CD，也常用于MPEG-1音频（VCD，SVCD，MP3）所用采样率

47250Hz NipponColumbia(Denon)开发的世界上第一个商用PCM录音机所用采样率

48000Hz miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50000Hz 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率

50400Hz 三菱X-80数字录音机所用所用采样率

96000或192000Hz DVD-Audio、一些LPCMDVD音轨、BD-ROM（蓝光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率

28224MHz SACD、索尼和飞利浦联合开发的称为DirectStreamDigital的1位sigma-deltamodulation过程所用采样率

这里引入一个概念，奈奎斯特采样定理（也称采样定律）

简述的内容为，

1.在进行模拟/数字信号的转换过程中，当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax)，采样之后的数字信号完整地保留了原始信号中的信息，一般实际应用中保证采样频率为信号最高频率的2.56～4倍。

2.如果对信号的其它约束是已知的，则当不满足采样率标准时，完美重建仍然是可能的。在某些情况下（当不满足采样率标准时），利用附加的约束允许近似重建。这些重建的保真度可以使用Bochner定理来验证和量化。

时域

频带为F的连续信号f(t)可用一系列离散的采样值f(t1),f(t1±Δt)，f(t1±2Δt)，...来表示,只要这些采样点的时间间隔Δt≤1/(2F)，便可根据各采样值完全恢复原来的信号f(t)。这是时域采样定理的一种表述方式。

时域采样定理的另一种表述方式是：当时间信号函数f(t)的最高频率分量为fM时,f(t)的值可由一系列采样间隔小于或等于1/(2fM)的采样值来确定,即采样点的重复频率f≥(2fM)。图为模拟信号和采样样本的示意图。

时域采样定理是采样误差理论、随机变量采样理论和多变量采样理论的基础。

频域

对于时间上受限制的连续信号f(t)（即当│t│>T时,f(t)=0,这里T=T2-T1是信号的持续时间），若其频谱为F（ω）,则可在频域上用一系列离散的采样值来表示,只要这些采样点的频率间隔ω≦π / tm 。

回到一开始的疑问，人耳听力范围是从20hz-20000hz，为什么这个采样深度是从44100hz开始计算的？

1.采样是将一个信号（即时间或空间上的连续函数）转换成一个数值序列（即时间或空间上的离散函数）

2.采样定理是指，如果信号带宽不到采样频率的一半（即奈奎斯特频率），那么此时这些离散的采样点能够完全表示原信号。高于或处于采样频率的频率分量会导致混叠现象。大多数应用都要求避免混叠，混叠问题的严重程度与这些混叠频率分量的相对强度有关。

3.混叠

如果不能满足上述采样条件，采样后信号的频率就会重叠，即高于采样频率一半的频率成分将被重建成低于采样频率一半的信号。这种频谱的重叠导致的失真称为混叠，而重建出来的信号称为原信号的混叠替身，因为这两个信号有同样的样本值。

一个频率正好是采样频率一半的弦波信号，通常会混叠成另一相同频率的波弦信号，但它的相位和幅度改变了。

以下两种措施可避免混叠的发生：

1）提高采样频率，使之达到最高信号频率的两倍以上；

2）引入低通滤波器或提高低通滤波器的参数；该低通滤波器通常称为抗混叠滤波器

抗混叠滤波器可限制信号的带宽，使之满足采样定理的条件。从理论上来说，这是可行的，但是在实际情况中是不可能做到的。因为滤波器不可能完全滤除奈奎斯特频率之上的信号，所以，采样定理要求的带宽之外总有一些“小的”能量。不过抗混叠滤波器可使这些能量足够小，以致于可忽略不计。

4.减采样

当一个信号被减采样时，必须满足采样定理以避免混叠。为了满足采样定理的要求，信号在进行减采样操作前，必须通过一个具有适当截止频率的低通滤波器。这个用于避免混叠的低通滤波器，称为抗混叠滤波器。

滤波器：滤波器是一种选频装置，可以使信号中特定的频率成分通过，而极大地衰减其他频率成分。利用滤波器的这种选频作用，可以滤除干扰噪声或进行频谱分析。

最终：回归到实际应用，我们常见的平台流通音频格式有

1.mp3 2.wav 3.flac 4.aac

其中有损压缩1.mp3 2.aac

无损压缩： 1.wav 2.flac

mp3:我们先默认编码率为主流宿主常用的320k,

我们可以发现，mp3的编码格式可以记录到32位浮点的信息，也就是说可以记录168dB的动态范围，相对因为这是个有损压缩，所以采样率方面是一定被损耗了的，就不针对讨论了。

2.flac

这就是我们在网易云音乐，人称云村上最常见的格式，（我寻思可能是因为容易开发？）

水果软件对这个编码格式的导出深度是到24bit为止，这个数值也和大部分用户所用集成声卡播放设备所对应，可以记录到144db，同时因为flac的解码速度比较快，这就非常合适于传播在主流解码播放器。

3.wav

这个就不重点讨论了，因为是老牌压缩格式，如果真的想相对无损，压成它就行了，但因为多次压缩是一定会让音频文件失真的，所以如果为了方便保存，我还是建议保存原混音和录音工程。

4.AAC

这个是基于MPEG-2的音频编码技术，开发的压缩格式，2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。

也是我们最熟悉的mp4/h,264/h.265视频编码格式最常用的音频压缩格式。

这里再引入一个概念，声卡的数模转换能力

我们的主流声卡甚至是集成声卡，

他们都支持到44100/48000hz，16/24bit

所以我们得出了以下结论

1。为什么有更好的决策，大部分音乐制作人和混音师都决定了用44100HZ/16bit的wav压缩格式去压缩（CD压缩格式）

2.似乎对于播放来说更好的比起更好的解析度和采样率，更充足的动态更适合在网络和在线平台传播，所以高采样深度的mp3依旧是网络音频文件的主要传播格式（土嗨警告）

3.因为我们的播放设备大部分都是耳机/立体声扬声器，所以5.1的压缩格式是非常没有必要性的

4.AVI是一种能够压入WAV音频格式的视频封装，但在网络平台传播似乎没有适合于存储大量AVI视频的平台和高速解码的播放器,所以，至少在现在,h.264和flv都还是主流格式

5.既然选择去压制这段音频请用正确的思路去制作，给观看者一个“正确”的理解观是每个文化传播者应该有的义务

下次再见

标签：

聊一聊一些荧幕和现场背后的音频故事（8）--好动态vs细腻感，你更喜欢哪个？

时域

频域

3.混叠

4.减采样