零声音视频流媒体高级开发
FFmpegWebRTCRTMP
什么是音视频 ?
什么是声音
声音是由物体振动而产生的(已报名零声音视频 底部评)。声音是一种压力波,振动时使空气产生纵波,由此产生了声
2. 声波的三要素
声波的三要素是频率、振幅和波形,频率代表音阶的高低,振幅代表响度,波形代表音色。
频率:频率越高,波长越短。低频声响的波长则较长,所以其可以更容易地绕过障碍物,因此能量衰减就小,声音就会传得远,反之则会得到完全相反的结论。
振幅:响度其实就是能量大小的反映,用不同的力度敲击桌子,声音的大小势必也会不同。在生活中,分贝常用于描述响度的大小。声音超过一定的分贝,人类的耳朵就会受不了。
音色:音色其实也不难理解,在同样的音调(频率)和响度(振幅)下,钢琴和小提琴的声音听起来是完全不相同的,因为它们的音色不同。波的形状决定了其所代表声音的音色,钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。
3. 数字音频
数字音频涉及到三个概念:采样,量化和编码。
采样:采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理(也称为采样定理),按比声音最高频率高 2 倍以上的频率对声音进行采样(也称为 AD 转换)。
量化:量化是指在幅度轴上对信号进行数字化,比如用 16 比特的二进制信号来表示声音的一个采样,而 16 比特(一个short)所表示的范围是[-32768,32767],共有 65536 个可能取值,因此最终模拟的音频信号在幅度上也分为了 65536层。
编码:所谓编码,就是按照一定的格式记录采样和量化后的数字数据,比如顺序存储或压缩存储。编码里面涉及了很多种格式,通常所说的音频的裸数据格式就是脉冲编码调制(Pulse Code Modulation,PCM)数据。描述一段 PCM 数据一般需要以下几个概念:量化格式(sampleFormat)、采样率(sampleRate)、声道数(channel)。以 CD 的音质为例:量化格式(有的地方描述为位深度)为 16 比特(2字节),采样率为44100,声道数为2,这些信息就描述了 CD 的音质。还有一个概念用来描述它的大小,称为数据比特率,即1秒时间内的比特数目,它用于衡量音频数据单位时间内的容量大小。