一、语音信号的发声原理

1.发声原理

人发出声音的流程为空气由肺进入喉部，经过声带激励，进入声道，最后通过嘴唇辐射形成语音。

2.数学模型

语音信号的数字模型分为激励模型、声道模型以及辐射模型。

激励模型：发浊音时声带的不断开启和关闭将产生间歇的脉冲波。这个脉冲波类似于斜三角形脉冲串。
声道模型：声道部分的数学模型目前有两种观点，一种是将声道视为多个不同截面积的管子串联而形成的系统，即“声管模型”，另一种是将声道视为一个谐振腔，即“共振峰模型”。
辐射模型：辐射模型表征口和唇的辐射效应和圆形头部的绕射效应。

二、语音信号的基本名词与概念和传统特征

1.基本名词与概念

音素：语音中最小的基本单位是音素，音素是人类能区别一个单词和另一个单词的基础。音素构成音节，音节又构成不同的词和短语。音素又分为元音和辅音。
元音：元音，又称母音，是音素的一种，与辅音相对。元音是在发音过程中由气流通过口腔而不受阻碍发出的音。不同的元音是由口腔不同的形状造成的。（元音和共振峰关系密切）
辅音：气流在口腔或咽头受到阻碍而形成的音叫做辅音，又叫子音。不同的辅音是由发音部位和发音方法的不同造成的。
清音：清音和浊音的概念在文献中涉及较多。严格来讲，很多特征的提取都需要区分清音和浊音。当气流通过声门时,如果声道中某处面积很小，气流高速冲过此处时产生湍流，当气流速度与横截面积之比大于某个临界速度便产生摩擦音，即清音。简单来说，发清音时声带不振动，因此清音没有周期性。清音由空气摩擦产生，在分析研究时等效为噪声。
浊音：语音学中，将发音时声带振动的产生音称为浊音。辅音有清有浊，而多数语言中的元音均为浊音。浊音具有周期性。
发清音时声带完全舒展，发浊音时声带紧绷在气流作用下作周期性动作。

2.传统特征

声强

在物理学中，把单位时间内通过垂直于声波传播方向的单位面积的平均声能，称为声强。声强用I表示，单位为瓦/平米。实验的研究表明，人对声音强弱的感觉并不是与声强成正比，而是与其对数成正比的。所以一般声强用声强级来表示。
$SIL=10lg[I/I’]=10lg（I/I’）$
式中I为声强，I’=10e-12瓦/平米称为基准声强，声强级的常用单位是分贝（dB）。

响度

响度是一种主观心理量， 是人类主观感觉到的声音强弱程度。一般来说，声音频率一定时，声强越强，响度也越大。但是响度与频率有关，相同的声强，频率不同时，响度也可能不同。响度若用对数值表示，即为响度级，响度级的单位定义为方，符号为phon。根据国际协议规定，0dB声级的1000Hz纯音的响度级定义为0 phon，n dB声级的1000Hz纯音的响度级就是n phon。其它频率的声级与响度级的对应关系要从等响度曲线查出。

音高

音高也是一种主观心理量，是人类听觉系统对于声音频率高低的感觉。音高的单位是美尔（Mel）。响度级为40 phon，频率为1000Hz的声音的音高定义为1000Mel。

采样频率与波形图

声音即为空气分子不断的振动和传播。把声音想象成水龙头中流出的水流，用一个传感器以某种频率探入这股水流，每探测一次测量一次声音的振幅强度以及振动的方向，即可以得到一系列的随时间变化的点。这就是“波形图”，英文有多种说法，如samples、waveform、signal均可指。这种频率就是采样频率。
关于采样频率究竟应该是多少，参考采样定理。
采样率 * 语音时长 = 语音采样点数。
同样的采样率的情况下，语音的采样点数越多，就会导致语音文件的大小越大。
这是音频文件最基础最需要牢记的公式。

基因周期和基因频率

人在发音时，声带振动产生浊音（清音由空气摩擦产生）。浊音的发音过程是：来自肺部的气流冲击声门，造成声门的一张一合，形成一系列准周期的气流脉冲，经过声道（含口腔、鼻腔）的谐振及唇齿辐射最终形成语音信号。故浊音波形呈现一定的准周期性。所谓基音周期，就是对这种准周期而言的。它反映了声门相邻两次开闭之间的时间间隔或开闭的频率。
基音周期是语音信号最重要的参数之一，它描述了语音激励源的一个重要特征。** 基音周期信息在语音识别、说话人识别、语音分析与语音合成，以及低码率语音编码、发音系统疾病诊断、听觉残障者的语言指导等多个领域有着广泛的应用。（因为女性基频比男性高，所以有些算法中使用基频来区分性别，还挺准的）基音周期的估算方法很多，比较常用的有自相关法，倒谱法（我们提基频用的倒谱法），平均幅度差函数法，线性预测法，小波—自相关函数法，谱减—自相关函数法等。

信噪比

定义：
信噪比的计量单位是dB，其计算方法是10lg(PS/PN)，其中PS和PN分别代表信号和噪声的功率（用能量也是一样的）。
计算方法：
在噪声和语音完全混杂的情况下信噪比很难计算，在预知噪声的情况下，可以用实际信号（纯语音+噪声）减去噪声，得到近似的纯语音信号。从而通过进一步计算求得信噪比。
我们在实验中所采集的信号信噪比低时在10几dB，信噪比高时在30dB以上。

共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。在语音声学中，共振峰决定着元音的音质。共振峰是表征语音信号特征的基本参数之一。它在语音信号合成、语音识别和语音编码等方面起着重要作用。共振峰可以等效为声道系统函数的复极点对，由于人的声道平均长度为17cm，而语音信号的能量主要集中在0-5kHz。因此语音通常包含4到5个稳定的共振峰，一般只需要研究前三个共振峰。

共振峰的提取方法较多，比较常见的有谱包络法、倒谱法、LPC内插法、LPC求根法、希尔伯特变换法等，但以上方法都或多或少受，虚假峰值，共振峰合并，高音调语音（尤其是女性）的影响，针对单个元音以上方法可以较好的找到共振峰，但对于连续语音准确度较差。在噪声背景下不具有很好的鲁棒性。传统的共振峰提取方法都是基于谱分析和峰值检测技术。这些方法对于噪声背景下共振峰的检测，既不准确又不鲁棒。图示这种基于预滤波的方法，在进行谱峰检测之前对每一个共振峰使用一个时变的自适应滤波器进行预滤波。预滤波限制了每个共振峰的频谱范围，因此减小了相邻峰值之间的干扰和背景噪声的干扰。

频率微扰

频率微扰是描述相邻周期之间声波基本频率变化的物理量。主要反映粗糙声程度，其次反映嘶哑声程度。
语音信号中的频率微扰与声门区的功能状态是一致的。正常嗓音周期间的频率相同者较多，不同者甚少，因此频率微扰值很小。当发生声带病变时，微扰值增大，使声音粗糙。

振幅微扰（shimmer）

振幅微扰描述相邻周期之间声波幅度的变化，主要反映嘶哑声程度。Jitter和shimmer共同反映声带振动的稳定性，其值越小说明在发声过程中声学信号出现的微小变化越少。

规范化噪声能量（NNE）

主要计算发声时由于声门非完全关闭引起的声门噪声的能量。主要反映气息声程度，其次是嘶哑声程度，一定程度上反映声门的关闭程度，对由于声带器质性或功能性病变而产生的病理嗓音的分析很有价值。

频谱图

语音是一个复杂的现象。我们基本上不知道它是如何产生和被感知的。我们最基础的认识就是语音是由单词来构成的，然后每个单词是由音素来构成的。但事实与我们的理解大相径庭。语音是一个动态过程，不存在很明显的部分划分。通过音频编辑软件去查看一个语音的录音对于理解语音是一个比较有效的方法。

语谱图

时间帧的数量作为横坐标，幅度（STFT特征）数值的大小以颜色表示，即得到了语谱图。

mfcc梅尔倒谱系数

在语音识别（Speech Recognition）和话者识别（Speaker Recognition）方面，最常用到的语音特征就是梅尔倒谱系数。梅尔倒谱系数是在Mel标度频率域提取出来的倒谱参数，Mel****标度描述了人耳频率的非线性特性， 它与频率的关系可用下式近似表示：

Mel(f).png
式中f为频率，单位为Hz。
下图给出Mel频率与线性频率的关系。

Mel频率和线性频率的关系
计算方法：
(1).预加重预加重处理其实是将语音信号通过一个高通滤波器：

式中μ的值介于0.9-1.0之间，我们通常取0.96。
预加重的目的是提升高频部分，使信号的频谱变得平坦，移除频谱倾斜，来补偿语音信号受到发音系统所抑制的高频部分。 同时，也是为了消除发生过程中声带和嘴唇的效应。（因为口唇辐射可以等效为一个一阶零点模型）
(2)分帧、加窗，快速傅里叶变换
因为语音信号为短时平稳信号，所以需要进行分帧处理，以便把每一帧当成平稳信号处理。同时为了减少帧与帧之间的变化，相邻帧之间取重叠。一般帧长取25ms，帧移取帧长的一半。 (3)Mel滤波器组在语音的频谱范围内设置若干带通滤波器，M为滤波器的个数。每个滤波器具有三角形滤波器的特性，其中心频率为，在Mel频谱范围内，这些滤波器是等带宽的。每个带通滤波器的传递函数为：

Hm(k).png
其中：

M +1.png 三角带通滤波器有两个主要目的：
对频谱进行平滑化，并消除谐波的作用。此外还可以减少运算量。
在MATLAB的voicebox工具箱中有melbankm函数可用于计算Mel滤波器组。

H(k).png
三角形滤波器的示意图
(4)计算每个滤波器组输出的对数能量为：

(5)经离散余弦变换（DCT）得到MFCC系数：

1,2,..png
将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，通常取12-16。这里M是三角滤波器个数。

短时能量

短时能量的计算方法比较简单，即取一帧信号，通过短时能量计算公式计算即可.

短时平均幅度

短时平均幅度也是一帧语音信号能量大小的表征，它与短时能量的区别在于计算时不论采样值的大小，不会因为取二次方而造成较大的差异，在某些应用领域中会带来一些好处。
短时能量和短时平均幅度的有作用主要是：作为区分清浊音，区分声母韵母，区分有话段和无话段的指标。

短时平均过零率

短时平均过零率表示一帧语音中语音信号波形穿过横轴（零电平）的次数。

其计算公式为：

三、语音信号的处理操作

傅立叶变换

傅里叶变换的基本思想是：非周期性的信号可由多个周期性的信号叠加而逼近得到。

小波变换

小波变换是傅里叶变换的加强版本

分帧预加重加窗

因为语音信号为短时平稳信号，所以需要进行分帧处理，以便把每一帧当成平稳信号处理。同时为了减少帧与帧之间的变化，相邻帧之间取重叠。一般帧长取25ms，帧移取帧长的一半。

mel滤波

由于得到的声谱图较大，为了得到合适大小的声音特征，通常将它通过梅尔尺度滤波器组(Mel-scale filter banks)，变为梅尔频谱。
频率的单位是HZ，人耳能听到的频率范围是20-20000HZ，但是人耳对HZ单位不是线性敏感，而是对低HZ敏感，对高HZ不敏感，将HZ频率转化为梅尔频率，则人耳对频率的感知度就变为线性。

语音信号基础知识入门