Audio Analysis
Abstract |
Audio Analysis |
Authors |
Walter Fan |
Status |
WIP |
Updated |
2024-08-21 |
概述
对于语音文件或流的分析主要包括时域分析和频域分析
时域波形图
横坐标表示时间,纵坐标表示振幅
频域波形图
横坐标表示时间,纵坐标表示频率
语谱图 spectrogram
横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量
分帧
语音信号在10 ~ 30ms 范围之内是比较平稳的, 一般分帧就可能取值此在 20ms 左右
语音是连续的,如果我们将帧起点之前以及之后的信号幅度都设为零, 在进行傅立叶变换时,就会发生 Gibbs phenomenon 吉布斯现象,在不连续点处产生高频分量,导致傅立叶变换后的频谱出现局部峰值. 此外,由于周期信号在分帧过程中被截断,会导致频谱在整个频带内发生拖尾现象,这被称为 spectral leakage 频谱泄漏.
加窗处理
加窗就是将一帧信号的每个值乘以不同的权重, 将较大的权重赋予靠近窗中心的信号, 将接近零的权重赋予靠近窗边缘的信号,减轻分帧时造成的信号的不连续性.
常见的窗函数有:
Gaussian window
Hanning window
Hamming window