Audio Analysis

Abstract

Audio Analysis

Authors

Walter Fan

Status

WIP

Updated

2024-08-21

概述

对于语音文件或流的分析主要包括时域分析和频域分析

  1. 时域波形图

横坐标表示时间,纵坐标表示振幅

  1. 频域波形图

横坐标表示时间,纵坐标表示频率

  1. 语谱图 spectrogram

横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量

分帧

语音信号在10 ~ 30ms 范围之内是比较平稳的, 一般分帧就可能取值此在 20ms 左右

语音是连续的,如果我们将帧起点之前以及之后的信号幅度都设为零, 在进行傅立叶变换时,就会发生 Gibbs phenomenon 吉布斯现象,在不连续点处产生高频分量,导致傅立叶变换后的频谱出现局部峰值. 此外,由于周期信号在分帧过程中被截断,会导致频谱在整个频带内发生拖尾现象,这被称为 spectral leakage 频谱泄漏.

加窗处理

加窗就是将一帧信号的每个值乘以不同的权重, 将较大的权重赋予靠近窗中心的信号, 将接近零的权重赋予靠近窗边缘的信号,减轻分帧时造成的信号的不连续性.

常见的窗函数有:

  1. Gaussian window

  2. Hanning window

  3. Hamming window