聊一聊一些荧幕和现场背后的音频故事（27）--wav是无损？ mp3是垃圾？那就导出flac吧

2020-06-02 20:28 作者:盲人号 0人读过 | 我要投稿

因为所有人能接触倒数字音频的渠道是不一样的，有些人是通过电视机的扬声器，有些人是通过听歌耳机，甚至是游戏耳机，所以，如果你问我在最终没人得到对于同一个音频的听感是什么样的，我会说，那应该是都不一样的把，

但是，后期的目的，其实就是为了，让这个声音能够在所有的播放端达到一样（不然做后期意义是为了什么那，直接一个限制器响度拉满不就行了吗←打死）

所以，既然是用来保证最终音频质量的步奏，自然逃不开一个问题，

数字音频的编码格式

这次，我们来挖老底

以能够在所有平台流通的音频压缩格式做一个汇总

aac

一个和Mpge编码几乎同期诞生的音频编码格式，我们常见的流媒体，在线视频平台常用的音频压缩格式（因为大家都是用的mp4格式）

将倉木麻衣.-.[もう一度].单曲.(APE) 无损格式分别转成AAC格式的（.m4a）和MP3格式，两者码率均是320kps。再用adobe audition查看了这三份文件的频谱

2.mp3

因为移动播放器盛行开始流行的音频数字编码格式，特点是非常高的压缩比，但缺点是19k以上会发生斜坡式跌落，以至于几乎不存在二次加工的可能性

从三张图可以看出AAC文件与APE文件的频谱非常接近，在高频20K没有丢失，而MP3的在高频端上就严重丢失。比较了一下体积，AAC文件8.73M，MP3文件9.05M，AAC文件甚至还小些。这就是事实。

3.wav

PCM信号未经过任何编码和压缩处理(无损压缩)。与模拟信号比，它不易受传送系统的杂波及失真的影响。动态范围宽，可得到音质相当好的效果。编码上采用A律13折线编码。

A律13折线

A律是PCM非均匀量化中的一种对数压扩形式。数字脉冲编码调制（PCM）是目前模拟信号数字化的基本方法，PCM包括采样、量化、编码三个步骤，其中量化是对抽样值的取值离散，根据量化间隔的不同选取分为均匀量化和非均匀量化，非均匀量化可以有效地改善信号的量化信噪比。语音信号的量化常采用ITU建议的两种对数形式的非均匀量化压缩特性：A律和μ律，A律编码主要用于30/32路一次群系统， A律PCM用于欧洲和中国。

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求.

8000hz 为电话采样。
22050 的采样频率是常用的。
44100已是CD音质, 超过48000的采样对人耳已经没有意义

对采样率为44.1kHz的AAC（Advanced Audio Coding）音频进行解码时，一帧的解码时间须控制在23.22毫秒内。通常是按1024个采样点一帧。

为什么这里需要说下音频帧呢？
音频的帧的概念没有视频帧那么清晰，几乎所有视频编码格式都可以简单的认为一帧就是编码后的一副图像。但音频帧跟编码格式相关，它是各个编码标准自己实现的。因为如果以PCM（未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放了。比如采样率为44.1kHZ，采样精度为16位的音频，你可以算出bitrate（比特率）是4410016kbps，每秒的音频数据是固定的4410016/8 字节。
但是我们不希望每一次采样都返回给我们进行处理，我们希望的是返回一段时间内的所有采样数据。这里的音频帧就是每次返回给我们多少个采样数据，一般情况是下返回2048个采样数据。
那么单声道采用16位采样位数 2048个采样数据的大小是多少呢 2048*16/8 = 4096字节。

采样位数

每个采样数据记录的是振幅, 采样精度取决于储存空间（采样位数）的大小:

1 字节(也就是8bit) 只能记录 256 个数, 也就是只能将振幅划分成 256 个等级
2 字节(也就是16bit) 可以细到 65536 个数, 这已是 CD 标准了;
4 字节(也就是32bit) 能把振幅细分到 4294967296 个等级, 实在是没必要了

如果是双声道(stereo), 采样就是双份的, 文件也差不多要大一倍.

比特率

码率是指经过编码后的音频数据每秒钟需要用多少个比特来表示.

pcm编码本质已经是无损音频了，再去纠错几乎就是在鸡蛋里挑骨头

4.flac/ape

相较于老牌压缩格式wav,flac在实用层面存在

（1）灵活的压缩策略：与libflac使用是“质量”的参数，该参数变化从0（最快）至8（最小）。虽然在压缩过程（压缩文件总是完美的“无损”表示的原始数据）。涉及速度和容量之间的折衷，解码过程中始终是相当快的，而不是非常依赖于压缩

（2）快速：FLAC更看重解码的速度。解码只需要整数运算，并且相对于大多数编码方式而言，对计算速度要求很低。在很普通的硬件上就可以轻松实现实时解码。

（3）硬件支持：由于FLAC提供了免费的解码范例，而且解码的复杂程度低，所以FLAC是目前少数获得硬件支持的无损压缩编码之一。（APE格式也有少数硬件支持）

（4）可以流化：FLAC的每个数据帧都包含了解码所需的全部信息。解码当前帧无需参照它前面或后面的数据帧。FLAC使用了同步代码和CRC（类似于MPEG等编码格式），这样解码器在数据流中跳跃定位时可以有最小的时间延迟。

（5）可以定位：FLAC支持快速采样精确定位。这不仅对于播放有益，更使得FLAC文件便于编辑。

（6）富于弹性的metadata：可以定义和实现新类型的metadata数据块，而不会影响旧的数据流和解码器的使用。目前已有的metadata类型包括tag，cue表，和定位表。已经注册的应用程序可以定义自己专用的metadata类型（这一点与MIDI标准相似）。

（7）便于对CD进行备份：FLAC有一个cue表，表内的metadata数据块用于保存CD的内容列表和所有音轨的索引点。你可以将一张CD保存到一个单一文件，并导入CD的cue表格，这样一个FLAC文件就可以完整地记录整张CD的全部信息。当你的原来的CD损坏的时候，你就可以用这个文件恢复出与原来一模一样的CD副本。

（8）抗损伤：由于FLAC的帧结构，当数据流损坏时，数据损失会被限制在受损的数据帧之内。一般只会丢失很短的一个片段。而很多其他无损音频压缩格式在遇到损坏时，一个损坏就会造成后面所有数据丢失。

反观音频压缩格式，最终呈现的方式就是，音频本身的动态余量大小，换而言之，数字音频最大的优势就是，能在保存后，仍旧保证一个音频拥有“足够大的动态余量”来保证它的呼吸感,缺点就是因为量化保存带来的“晶化”质感，但因为有些时候，一些细节不是完全保留就是最好一样（就像你听到了电声乐器带来的动感体验，但如果你听过它的底噪你可能会反而厌恶它一样），反观未来，还是现在，并没有一个理论能够支持的住大于48000hz的采样率能给记录音乐载体带来任何良性影响，所以在数字编码领域大胆采用44100hz的无损压缩格式去压制音频可能是对于音乐作品最好的保存方式，反观影视和动画录音可能以96000hz/48000hz以保留更多单独人声的细节比较合适

标签：

聊一聊一些荧幕和现场背后的音频故事（27）--wav是无损？ mp3是垃圾？那就导出flac吧

A律13折线

采样位数

比特率