零声音视频流媒体高级开发

2022-09-06 15:32 作者:尘埃梦落定 0人读过 | 我要投稿

FFmpegWebRTCRTMP

什么是音视频？

什么是声音

声音是由物体振动而产生的（已报名零声音视频底部评）。声音是一种压力波，振动时使空气产生纵波，由此产生了声

2. 声波的三要素

声波的三要素是频率、振幅和波形，频率代表音阶的高低，振幅代表响度，波形代表音色。

频率：频率越高，波长越短。低频声响的波长则较长，所以其可以更容易地绕过障碍物，因此能量衰减就小，声音就会传得远，反之则会得到完全相反的结论。

振幅：响度其实就是能量大小的反映，用不同的力度敲击桌子，声音的大小势必也会不同。在生活中，分贝常用于描述响度的大小。声音超过一定的分贝，人类的耳朵就会受不了。

音色：音色其实也不难理解，在同样的音调（频率）和响度（振幅）下，钢琴和小提琴的声音听起来是完全不相同的，因为它们的音色不同。波的形状决定了其所代表声音的音色，钢琴和小提琴的音色不同就是因为它们的介质所产生的波形不同。

3. 数字音频

数字音频涉及到三个概念：采样，量化和编码。

采样：采样就是在时间轴上对信号进行数字化。根据奈奎斯特定理（也称为采样定理），按比声音最高频率高 2 倍以上的频率对声音进行采样（也称为 AD 转换）。

量化：量化是指在幅度轴上对信号进行数字化，比如用 16 比特的二进制信号来表示声音的一个采样，而 16 比特（一个short）所表示的范围是[-32768，32767]，共有 65536 个可能取值，因此最终模拟的音频信号在幅度上也分为了 65536层。

编码：所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储。编码里面涉及了很多种格式，通常所说的音频的裸数据格式就是脉冲编码调制（Pulse Code Modulation，PCM）数据。描述一段 PCM 数据一般需要以下几个概念：量化格式（sampleFormat）、采样率（sampleRate）、声道数（channel）。以 CD 的音质为例：量化格式（有的地方描述为位深度）为 16 比特（2字节），采样率为44100，声道数为2，这些信息就描述了 CD 的音质。还有一个概念用来描述它的大小，称为数据比特率，即1秒时间内的比特数目，它用于衡量音频数据单位时间内的容量大小。

标签：

零声音视频流媒体高级开发

FFmpegWebRTCRTMP

什么是音视频？

什么是声音

3. 数字音频