1. 语音信号处理的共性技术
我过去研究方向是在语音增强(Speech Enhancement)方面,也对语音活动检测(VAD)有点了解。语音增强与语音活动检测的核心目标是提升语音信号质量与鲁棒性,这与TTS(Text-to-Speech)和ASR(Automatic Speech Recognition)的前后端处理高度相关:
- 前端处理:语音降噪经验(如基于 U-Net 的实时模型)可直接应用于 ASR 的噪声抑制模块,提升远场或嘈杂环境下的识别率。例如,在金融客服场景中,用户可能通过手机在户外通话,噪声抑制是确保 ASR 准确率的关键。
- 特征提取:VAD 中的时频分析(STFT、Mel频谱)是 ASR 声学模型(如 CNN、LSTM )的基础输入,而 TTS 的声码器(如WaveNet、HiFi-GAN)同样依赖高质量语音特征。