################# Audio Analysis ################# .. include:: ../links.ref .. include:: ../tags.ref .. include:: ../abbrs.ref ============ ============= **Abstract** Audio Analysis **Authors** Walter Fan **Status** WIP **Updated** |date| ============ ============= .. contents:: :local: 概述 ============= 对于语音文件或流的分析主要包括时域分析和频域分析 1. 时域波形图 横坐标表示时间,纵坐标表示振幅 2. 频域波形图 横坐标表示时间,纵坐标表示频率 3. 语谱图 spectrogram 横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量 分帧 ================ 语音信号在10 ~ 30ms 范围之内是比较平稳的, 一般分帧就可能取值此在 20ms 左右 语音是连续的,如果我们将帧起点之前以及之后的信号幅度都设为零, 在进行傅立叶变换时,就会发生 Gibbs phenomenon 吉布斯现象,在不连续点处产生高频分量,导致傅立叶变换后的频谱出现局部峰值. 此外,由于周期信号在分帧过程中被截断,会导致频谱在整个频带内发生拖尾现象,这被称为 spectral leakage 频谱泄漏. 加窗处理 ================= 加窗就是将一帧信号的每个值乘以不同的权重, 将较大的权重赋予靠近窗中心的信号, 将接近零的权重赋予靠近窗边缘的信号,减轻分帧时造成的信号的不连续性. 常见的窗函数有: 1) Gaussian window 2) Hanning window 3) Hamming window