欢迎光临散文网会员登陆 & 注册

python 进行音频处理会有什么效果

2023-08-17 23:10 作者:BYYYSJX 0人读过 | 我要投稿

实验内容：

学习音频相关知识点，掌握 MFCC 特征提取步骤，使用给定的 chew.wav 音频文件进行特征提取。音频文件在实验群里下载。
部署 KALDI，简要叙述部署步骤运行 yes/no 项目实例，简要解析发音词典内容，画出初步的 WFST 图（按 PPT 里图的形式）。
调整并运行 TIMIT 项目，将命令行输出的过程与 run.sh 各部分进行对应，叙述顶层脚本run.sh 的各部分功能（不需要解析各训练过程的详细原理）。

原理分析：
对 chew.wav 进行特征提取声音信号本是一维时域信号（声音信号随时间变化），我们可以通过傅里叶变换将其转换到频域上,但这样又失去了时域信息，无法看出频率分布随时间的变化。短时傅里叶（STFT）就是为了解决这个问题而发明的常用手段。

所谓的短时傅里叶变换，即把一段长信号分帧、加窗，再对每一帧做快速傅里叶变换（FFT），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。

对语音信号进行分帧处理；
用周期图(periodogram)法来进行功率谱(power spectrum)估计；
对功率谱用 Mel 滤波器组进行滤波，计算每个滤波器里的能量；
对每个滤波器的能量取 log；
进行离散余弦变换（DCT）变换；
保留 DCT 的第 2-13 个系数，去掉其它。

WRITE-BUG研发团队衷心希望【WRITE-BUG数字空间】可以给每位同学一个属于自己的秘密空间，同时祝愿大家在“公开圈子”世界里，遇见志同道合的伙伴们，因为我们与大家一样，都曾孤独前行着。

标签：

python 进行音频处理会有什么效果的评论 (共条)