-
涉及语音声学,数字信号处理,人工智能,微机原理,模式识别,语言学和认知科学等
-
基本原理
-
语音输入过程:外界的模拟语音信号经由麦克风输入到计算机,计算机平台利用其A/D转换器(模数转换器)将模拟信号转换成计算机能处理的语音信号。然后将该语音信号送入语音识别系统前端进行预处理
-
预处理过程:过滤语音信息中不重要的信息与背景噪音等,以方便后期的特征提取与训练识别。预处理主要包括语音信号的预加重,分帧加窗和端点检测等工作
- 采样量化:在时间域上,等间隔的抽取模拟信号,得到序列模拟音频后,将其转换为数字音频的过程,实际上就是将模拟音频的电信号转换为二进制码0和1.采样频率越大,音质越有保证
-
特征提取过程:提取语音信号中反映语音特征的声学参数。语音识别中常用的声学参数包括短时平均能量或幅度,短时自相关函数,短时平均过零率,线性预测系数(LDC),线性预测倒谱系数(LPCC)等
-
语音训练:将特征提取后得到的参数组建成一个训练语音的参考模型库,或者对已有的模型库中的参考模型进行修改
-
语音识别:将待识别语音的特征参数与模型库中的各个模式进行一一比较,将相似度最高的模式作为识别结果输出,完成模式匹配。模式匹配是整个语音识别系统的核心