Audio Basic¶
Audio 声音是什么¶
声音是气压形成的波
形状
频率
振幅
声音的主观属性
响度
音色
音调
Glossaries¶
AEC¶
声学回声消除 ( Acoustic Echo Canceller)
AEC的工作原理是通过对讲话者的输出建模,并且将其从麦克风捕捉的信号里除去。AEC有助于确保对方听不到回声。AEC是对扬声器信号与由它产生的多路径回声的相关性为基础,建立远端信号的语音模型,利用它对回声进行估计,并不断地修改滤波器的系数,使得估计值更加逼近真实的回声。然后,将回声估计值从话筒的输入信号中减去,从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较,从而消除延长延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少,AEC可以消除各种延迟的回声。
Decibel 分贝¶
人们以分贝为单位来表示声音的强弱,符号为dB。0分贝刚刚引起听觉。人们把频率高于人耳所能听到的声叫做超声波,把频率低于人耳所能听到的声叫做次声波。
分贝其实是一个比值,它也可用于如下计量
表示功率量之比的一种单位,等于功率强度之比的常用对数的10倍。
表示场量之比的一种单位,等于场强幅值之比的常用对数的20倍。
声压级的单位,大约等于人耳通常可觉察响度差别的最小分度值。
Audio 频宽¶
音频质量 |
频率范围 |
采样率 |
采样位数 |
---|---|---|---|
电话语音-窄带 |
200 Hz ~ 3400 Hz |
8k Hz |
13 |
宽带语音-宽带 |
50 Hz ~ 7k Hz |
16k Hz |
16 |
调频广播-超宽带 |
20 Hz ~ 15k Hz |
32k Hz |
16 |
高质量音频-全带 |
20 Hz ~20k Hz |
44.1k Hz |
16 |
Audio 语音质量¶
清晰度
准确性 fidelity
- 回声 Echo
振幅: 回声的音量
延迟: 说话声音与回声的时间差
- 抖动 Jitter
- 语音数据包抵达目的端的时间变化
- buffer
play out delay buffer
dejitter buffer
- 延迟 Delay
从源端到目的端的所花费时间
- 影响因素
距离-传播延迟
编码
压缩
序列化
缓存
- 固定延迟
编码 coding
封包 packetization
序列化 serialization
- 处理 propagating
网络传输的延迟
- 可变延迟
也就是抖动
- 丢包 Packet Loss
网络不稳定
网络拥塞
可变延迟过大
- 侧音 side tone
使说话人以够从听筒听到自己的声音
- 背景噪声 background noise
- 从远端听到的低音量声音
VAD 语音活动检测
CNG 舒适噪声生成
可接受延迟
- below 150 ms
多数用户可接受
- 150 to 400 ms
有影响
- above 400 ms
不可接受
Codec¶
PCM: 将采样过后的振幅进行量化所得到的编码
G.711 - A-Law - μ-Law
G.722 SB-ADPCM (Sub-band ADPCM)
not including G.722.1, G.722.2, these codecs are not variants of G.722
G.729a
G.729 Annex A is a compatible extension of G.729, but requires less computational power
G.729 Annex B is not supported
语音应用程序 Application¶
IVR 语音交互应答
DTMF 双音多频 - 电话按键的发送和读取
Dial Plan
端点寻址 Endpoint addressing(Numbering Plan)
呼叫路由和路径选择 Call routing and path selection
号码处理 Digit manipulation
呼叫权限 Calling privilege
- 呼叫覆盖 Call coverage
top down
circular hunt
longest idle
Components
IP Phone
PSTN Phone
PSTN MG
SBC
GateKeeper
MCU
Call Agent
Application server
TP endpoint
Examples
CUCM - Cisco Unify Call Manager
CUSP - Cisco Unify SIP Proxy
Asterisk
FreeSwitch
Functions¶
Signaling by SIP, XMPP or others
RTP Rx/Tx (receiving/transmitting)
Jitter buffering controller (adaptive policy)
Decoding (G.711/G.722/G.729/PLC)
Audio enhancement processing (AGC, AEC, ANS)
Audio mixing
Active speaker notification
Encoding (G.711/G.722/G.729)
Audio playback
Audio recording
Mute/unmute
DTMF collecting/reporting (RFC2833/In-band/KPML)
TLS/Secure RTP
IPv6 RTP media transport