初次了解ASR - 语音信号处理讨论语音信号处理不同方向的共性，对音频信号的预处理和特征提取。以及对语音识别、语音合成等

1. 语音信号处理的共性技术

我过去研究方向是在语音增强（Speech Enhancement）方面，也对语音活动检测（VAD）有点了解。语音增强与语音活动检测的核心目标是提升语音信号质量与鲁棒性，这与TTS（Text-to-Speech）和ASR（Automatic Speech Recognition）的前后端处理高度相关：

前端处理：语音降噪经验（如基于 U-Net 的实时模型）可直接应用于 ASR 的噪声抑制模块，提升远场或嘈杂环境下的识别率。例如，在金融客服场景中，用户可能通过手机在户外通话，噪声抑制是确保 ASR 准确率的关键。
特征提取：VAD 中的时频分析（STFT、Mel频谱）是 ASR 声学模型（如 CNN、LSTM ）的基础输入，而 TTS 的声码器（如WaveNet、HiFi-GAN）同样依赖高质量语音特征。