语音情感分析技术解析:声学与词汇信息融合

93 阅读2分钟

语音情感分析的技术实现

人类语音通过词汇内容及表达方式传递情感信息。在语音助手等语音计算系统及呼叫中心等人际交互场景中,自动识别语音情感对提升用户体验至关重要。

混合架构与两阶段训练

传统语音情感分析方法通常包含两个步骤:提取预定义的声学特征(如音高和频谱能量波动),再基于这些特征进行分类。这类方法对短时情感表达有效,但对自然对话场景的性能有限。自然会话中,词汇特征对情感传递起关键作用。

某中心的语音语调分析采用混合方案:结合声学特征与语言信息,采用编码器-解码器结构的自动语音识别(ASR)模型。模型同时接受情感识别和语音识别训练,随后冻结编码器作为情感分类前端。

技术架构特点

  • 深度学习前端通过自监督预训练提取语音信号特征
  • ASR分支编码器对应声学模型,将声学特征映射为词块抽象表示
  • 解码器对应语言模型,将词块组合成有意义词汇

异构数据集训练策略

传统模型使用小规模短语句数据集,难以有效分析自然对话。本研究采用多数据集组合方案:

  1. 对含文本但无情感标签的数据,使用文本理解服务估计情感标签
  2. 对含情感标签但无文本的数据,使用语音转文本服务生成文本
  3. 对既无文本也无标签的数据,联合使用转文本和文本理解服务

训练过程中采用数据增强确保输入信号鲁棒性,包括:

  • 频谱增强
  • 语速变化(95%-105%)
  • 混响处理
  • 加性噪声(0dB-15dB信噪比)

偏差减少技术

针对训练数据中情感标签分布不均衡问题,采用两种偏差减少技术:

  1. ASR训练阶段:对数据进行采样使情感标签均匀分布
  2. 分类器训练阶段:对损失函数中各类别分量进行加权,权重与对应标签频率成反比

实时推理实现

推理模型包含预训练前端、训练后的ASR编码器和分类器。分类器的计算成本远低于ASR解码器,使得系统能以更低成本运行推理。

实际部署中:

  • 处理5秒语音片段,每2.5秒更新一次
  • 实时计算语音存在概率和情感概率
  • 基于短期情感概率计算过去30秒及全程的情感估计

测试表明,该混合模型性能优于仅依赖文本或声学数据的传统方法。