SOTA 预警:基于波形与对数梅尔谱融合的音频分类算法详解

3 阅读4分钟

论文阅读笔记:Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification

一、 读到这篇文章的起点

在医学音频(如呼吸音)的智能诊断中,一个核心争议点始终存在:对于呼吸音这种复杂的信号,我们应该看重“波形”还是“频谱”?

单纯的波形(Waveform)保留了最原始的时域细节,但缺乏显式的频率表达;而对数梅尔谱(Log-mel Spectrogram)虽然符合人类听觉特性,却在处理高频信号和时间分辨率上存在天然的权衡(Trade-off)。

带着“如何结合两者优势以提升异常呼吸音识别率”的问题,我研读了发表于 CEII 2024 的这篇论文:《Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification》


二、 论文来源与背景

  • 会议名称:2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII 2024)
  • 举办地:新加坡南洋理工大学(2024年12月14–16日)
  • 出版信息:IEEE CPS 出版,DOI: 10.1109/CEII65291.2024.00022
  • 核心定位:聚焦于利用深度学习技术,解决临床中关键的**异常呼吸音(Crackles & Wheezes)**自动分类难题。

三、 这篇文章主要在解决什么问题?

文章的核心使命是:提高对异常呼吸音的识别能力,特别是针对那些关键但难以捕捉的病理声音。

作者指出,现有的 Audio Spectrogram Transformer (AST) 虽然在正常呼吸音识别上表现不错,但在面对以下挑战时显得力不从心:

  1. 类别不平衡:临床数据中正常音远多于异常音。
  2. 特征缺失:单一的频谱表示会丢失短时结构和局部频率细节。
  3. 临床相关性:**Crackles(湿啰音)**通常与肺炎、肺纤维化相关,而 **Wheezes(哮鸣音)**多见于哮喘。AI 必须能稳健地识别出这些“病理信号”,才具有临床价值。

四、 技术架构:WLANN 框架拆解

作者提出的模型名为 WLANN,其精妙之处在于将问题拆解为“看什么”与“怎么看”。

1. 双流输入表示

  • Waveform-CNN 分支:使用 1D-CNN 直接处理原始波形。通过设置特定的 Kernel Size (80) 和 Stride (5),使其每秒产生 25 帧特征,精准捕捉时域中的细微波动。
  • Spectrogram-AST 分支:处理 Log-mel 频谱。利用 Transformer 的自注意力机制获取全局的频域上下文信息。

2. 特征融合与时序建模(核心创新)

模型并没有简单地将特征拼接后就输出结果,而是引入了 Bi-GRU(双向循环神经网络)

  • 逻辑:呼吸音是时变信号,异常特征往往隐藏在“帧与帧”的演变中。
  • 做法:将 CNN 和 AST 的输出拼接后,送入 Bi-GRU 建模帧级上下文(Frame-level context),这极大地提升了模型对短促异常音的敏感度。

3. 针对性的损失函数

  • 采用 Multi-class Focal Loss (MCFL),通过调节 Focusing Parameter (γ=2.0\gamma = 2.0),强制模型降低对简单样本(正常音)的关注,将能量集中在难分的异常样本上。

五、 实验结果说明了什么?

基于 SPRSound 数据集的实验结果非常具有说服力:

1. 综合性能表现

WLANN 在多个维度上超越了现有的 TRespNET 和 DenseNet 方案:

  • Sensitivity (敏感度): 90.3% (代表漏诊率极低)
  • Specificity (特异性): 96.9%
  • Total Score: 93.6%

2. 消融实验揭示真相

模型组合方式Total Score (TS)结论
仅 Waveform-CNN55.9%单一波形特征表现有限
仅 Spectrogram-AST85.8%频谱是基础,但有提升空间
WLANN (CNN+AST+Bi-GRU)93.6%双流融合+时序建模是黄金组合

六、 读后感与启发

  1. 问题驱动的设计:作者针对“频谱分辨率不足”和“时序细节丢失”两个具体病灶下药,这种思路比盲目追求复杂模型更有效。
  2. 指标的临床意义:在医学 AI 领域,Sensitivity 往往比 Accuracy 更重要。WLANN 通过 Focal Loss 和 Bi-GRU 换取了极高的敏感度,更符合临床需求。
  3. 技术范式:这篇文章再次证明了在处理生物医学信号时,**“原始信号 + 变换域特征 + 时序上下文”**是一条非常稳健的 SOTA 路径。

七、 引用信息

Xie, J., Zhou, Y., Xu, M. (2024). Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification. In: 2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII). IEEE, pp. 65–69. DOI: 10.1109/CEII65291.2024.00022.