欢迎光临散文网 会员登陆 & 注册

Ai工匠学堂WeNet线下短训班-北京站(四天)

2023-08-08 16:08 作者:bili_93891819972  | 我要投稿

 1)语音文件读入

  WeNet只支持44字节header的wav格式音频数据,wav header定义在WavHeader结构体中,包括音频格式、声道数、采样率等音频元信息。WavReader类用于语音文件读入,调用fopen打开语音文件后,WavReader先读入WavHeader大小的数据(也就是44字节),再根据WavHeader中的元信息确定待读入音频数据的大小,最后调用fread把音频数据读入buffer,并通过static_cast把数据转化为float类型。

  struct WavHeader {

  char riff[4]; // "riff"

  unsigned int size;

  char wav[4]; // "WAVE"


Ai工匠学堂WeNet线下短训班-北京站(四天)的评论 (共 条)

分享到微博请遵守国家法律