频率的透视镜——傅里叶变换(一)

每一个音频工作者都会接触到这种工具:

或者这样的:

这是频谱仪(Spectrum Meter)。有一定经验的混音师,可以迅速地从频谱仪中判断出声音的频率特性,并以此为参考进行调整。我们也可以感性地认识到,声音就是由各种各样的频率叠加在一起,并且随着时间变化的。对于时间域上的波形,我们可以看到声音的音量变化,但是要看到频率的特点,你不得不借助频谱仪。
而频谱仪的实现的基础,以及声音的频率分析的根本,都指向一个本与音频无关的科学家身上。他就是傅里叶(Jean Baptiste Joseph Fourier)。他提出的傅里叶变换(Fourier Transform),已然成为现代信息科技的支柱,在音频技术中也无时无刻不存在。如果你想要更清晰地理解频率的概念,你一定要对傅里叶变换有所了解。
接下来的“频率”专题文章中,我会以音频工作者的视角,对声音处理中涉及到频率的问题进行解释。而第一部分就是傅里叶变换。
1. 正弦波
如果你对傅里叶变换有耳闻,那么你大概知道,傅里叶变换的基底就是正弦函数。
正弦波,为什么是正弦波?
事实上,正弦波有很多数学上的优异特性,比如求导、积分、求幂等运算后的结构都是自身的线性变换,比如欧拉公式e^(jωt)=sin(ωt)+jcos(ωt)中把正弦、余弦函数和e、π、虚数j联系起来,这在复变函数中非常方便于运算。通过欧拉公式,我们在分析中习惯性地把正弦函数sin(x)和带有虚数的exp(jω)等同起来。另外,在线性时不变系统中的特征函数就是正弦函数。
总之,由于它具有优异的数学性质,而且听觉上,正弦波也给人一种“纯净”的感觉,它也和人耳听觉极限挂钩,从工程经验上说,确实适合用于音频分析。
正弦函数的一般公式是:,其中A指的是振幅,描述正弦波最大能达到多大;f指的是频率,由于前面乘了个“2π”,这里的f指的是每秒钟完成几个周期,单位是赫兹(Hz);φ指的是相位,表示这个正弦波相对于原始的状态挪动了多大的一个角度。下面这个图象是振幅A=0.8,频率f=100Hz,相位(初始相位)等于-30°(-π/6)的波形。

正弦函数曲线 需要注意的是,相位(Phase)这个概念经常被混淆,尤其是跟“声像(Pan)”出现混淆。声像的定义在后续文章中会提到,这里专门解释一下相位。相位的单位是角度,它对正弦波形状的影响,是和频率挂钩的。比如对于一条100Hz和一条200Hz的曲线,相位同样是-π/6,但是他们相对于时间的平移并不一样:

因为相位是角度单位,信号的频率越高,周期越小,则同样角度下的时间长度越小。
有一个显而易见的结论:知道了一个正弦波的幅度、频率和相位,就可以完美复原这个正弦波。
2. 傅里叶变换说了什么?
傅里叶变换(在音频信号的范畴内)的意思是,任意的波形,都可以分解为一系列的正弦波的叠加。这些正弦波,大小不一、长度不一、相位(时间差)不一,但是对于任意的音频信号,总是可以分解出一系列的正弦波来叠加的。

如上图所示,三个不同的正弦波叠加成绿色的总波形,经过傅里叶变换之后可以计算出各个频率的大小和偏移量(相位),然后重构出原始的三个波形。实际上,信号经过傅里叶变换之后,再进行反傅里叶变换,可以无损地得到原始波形。
而傅里叶变换计算出来的结果,就是各个频率的大小和相位(偏移量)。把各个频率的大小汇总到一张图里,就成了我们熟悉的频谱(严格来讲叫做幅度谱);各个频率的相位汇总到一张图里,就成了相位谱。

频谱:可以知道信号中包含了什么频率、各个频率有多少,但不知道相位是什么;
相位谱:仅可以知道信号中包含的各个频率的相位。(范围-180°~+180°)
我们常用的分析工具是频谱。相位谱在一些分析中也有用,但一般不作为混音的参考仪表。 真实的信号中不容易有这么干净的频谱分量,实际的录音中往往存在着各种各样的频率,比如这个:

然后我们看频谱:

几乎每个频率都存在着一定的量,只不过有主有次而已。这才是现实中的频谱。
此时你会发现,这样的频谱只告诉你某个时刻(实际上是“特别短的时间段”)下的频谱。但是众所周知音乐是时间的艺术,频率一直随着时间在变,虽然我们可以通过观察这个图象的变化来了解时间上的频率特性,但是有没有办法用一个图来表示频率分量的大小随时间的变化状态呢?有的。
3. 频谱与时频图
传统的频谱图,是这样定义的:

这是二维的图像,没有时间信息!如果要引入时间信息的话,我们需要加一个维度。
我们可以用3D图像来表示不同时间的频谱,比如iZotope Insight 2的频谱工具:

如果要节省计算资源的话,也可以省去3D空间,我们用颜色来表示幅度的大小,Adobe Audition和iZotope RX8都这么干:

RX8中提供一个刻度的调整,如果音量过低,可以拉动颜色和幅度对应的条子来控制:


像这样,可以看到各个频率分量的大小随着时间变化的图像,叫做时频图(Time-frequency Image)。当然,在音频领域中,大家都约定俗成地混淆在一起,时频图和前面提到的幅度谱,都可以统称为频谱。
有了傅里叶变换,我们可以看信号的频谱,借助频谱,我们可以分析声音的频率特性。而频率特性,让我们更深入地理解声音的构成,并创造出了控制声音频率的工具——均衡器。
4. 傅里叶变换,怎么做到的?
(番外篇)
解释傅里叶变换的原理,通常需要大量公式推导。这里我简要解释一下数学原理背后的逻辑。
想象一种运算,可以实现这种功能:已知一个声音信号A,和一个正弦波S,正弦波的频率f可以任意变化。当A和S参与这种运算之后,可以单独过滤出声音A中包含的频率f的分量。S正弦波的频率依次变化,就像查户口一样,挨个问声音信号A:“你有没有f频率?”“你这个频率有多大?”“你这个频率相位多少?”。
这样的运算,叫做内积。
通过盘问A信号的“户口信息”,我们就可以算出A里面包含了多少频率,每个频率量多大,相位多少。当我们按照频率依次列出幅度的序列,就得到了频谱;列出相位的序列,就得到了相位谱。这就是傅里叶变换的本质。
本文作者:艾夫
音乐制作人、编曲人、混音师、艾楽音乐工作室主理人、华中科技大学光电信息专业硕士。

*文中观点为作者独立观点,不完全代表本号立场,仅供参考交流学习;
*本文部分配图源自网络,不用于商业用途;如有侵权,请联系本号处理。