语音情感分析的技术实现
人类语音通过词汇内容及表达方式传递情感信息。在语音助手等语音计算系统及呼叫中心等人际交互场景中,自动识别语音情感对提升用户体验至关重要。
混合架构与两阶段训练
传统语音情感分析方法通常包含两个步骤:提取预定义的声学特征(如音高和频谱能量波动),再基于这些特征进行分类。这类方法对短时情感表达有效,但对自然对话场景的性能有限。自然会话中,词汇特征对情感传递起关键作用。
某中心的语音语调分析采用混合方案:结合声学特征与语言信息,采用编码器-解码器结构的自动语音识别(ASR)模型。模型同时接受情感识别和语音识别训练,随后冻结编码器作为情感分类前端。
技术架构特点
- 深度学习前端通过自监督预训练提取语音信号特征
- ASR分支编码器对应声学模型,将声学特征映射为词块抽象表示
- 解码器对应语言模型,将词块组合成有意义词汇
异构数据集训练策略
传统模型使用小规模短语句数据集,难以有效分析自然对话。本研究采用多数据集组合方案:
- 对含文本但无情感标签的数据,使用文本理解服务估计情感标签
- 对含情感标签但无文本的数据,使用语音转文本服务生成文本
- 对既无文本也无标签的数据,联合使用转文本和文本理解服务
训练过程中采用数据增强确保输入信号鲁棒性,包括:
- 频谱增强
- 语速变化(95%-105%)
- 混响处理
- 加性噪声(0dB-15dB信噪比)
偏差减少技术
针对训练数据中情感标签分布不均衡问题,采用两种偏差减少技术:
- ASR训练阶段:对数据进行采样使情感标签均匀分布
- 分类器训练阶段:对损失函数中各类别分量进行加权,权重与对应标签频率成反比
实时推理实现
推理模型包含预训练前端、训练后的ASR编码器和分类器。分类器的计算成本远低于ASR解码器,使得系统能以更低成本运行推理。
实际部署中:
- 处理5秒语音片段,每2.5秒更新一次
- 实时计算语音存在概率和情感概率
- 基于短期情感概率计算过去30秒及全程的情感估计
测试表明,该混合模型性能优于仅依赖文本或声学数据的传统方法。