论文阅读笔记:Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification
一、 读到这篇文章的起点
在医学音频(如呼吸音)的智能诊断中,一个核心争议点始终存在:对于呼吸音这种复杂的信号,我们应该看重“波形”还是“频谱”?
单纯的波形(Waveform)保留了最原始的时域细节,但缺乏显式的频率表达;而对数梅尔谱(Log-mel Spectrogram)虽然符合人类听觉特性,却在处理高频信号和时间分辨率上存在天然的权衡(Trade-off)。
带着“如何结合两者优势以提升异常呼吸音识别率”的问题,我研读了发表于 CEII 2024 的这篇论文:《Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification》。
二、 论文来源与背景
- 会议名称:2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII 2024)
- 举办地:新加坡南洋理工大学(2024年12月14–16日)
- 出版信息:IEEE CPS 出版,DOI:
10.1109/CEII65291.2024.00022 - 核心定位:聚焦于利用深度学习技术,解决临床中关键的**异常呼吸音(Crackles & Wheezes)**自动分类难题。
三、 这篇文章主要在解决什么问题?
文章的核心使命是:提高对异常呼吸音的识别能力,特别是针对那些关键但难以捕捉的病理声音。
作者指出,现有的 Audio Spectrogram Transformer (AST) 虽然在正常呼吸音识别上表现不错,但在面对以下挑战时显得力不从心:
- 类别不平衡:临床数据中正常音远多于异常音。
- 特征缺失:单一的频谱表示会丢失短时结构和局部频率细节。
- 临床相关性:**Crackles(湿啰音)**通常与肺炎、肺纤维化相关,而 **Wheezes(哮鸣音)**多见于哮喘。AI 必须能稳健地识别出这些“病理信号”,才具有临床价值。
四、 技术架构:WLANN 框架拆解
作者提出的模型名为 WLANN,其精妙之处在于将问题拆解为“看什么”与“怎么看”。
1. 双流输入表示
- Waveform-CNN 分支:使用 1D-CNN 直接处理原始波形。通过设置特定的 Kernel Size (80) 和 Stride (5),使其每秒产生 25 帧特征,精准捕捉时域中的细微波动。
- Spectrogram-AST 分支:处理 Log-mel 频谱。利用 Transformer 的自注意力机制获取全局的频域上下文信息。
2. 特征融合与时序建模(核心创新)
模型并没有简单地将特征拼接后就输出结果,而是引入了 Bi-GRU(双向循环神经网络):
- 逻辑:呼吸音是时变信号,异常特征往往隐藏在“帧与帧”的演变中。
- 做法:将 CNN 和 AST 的输出拼接后,送入 Bi-GRU 建模帧级上下文(Frame-level context),这极大地提升了模型对短促异常音的敏感度。
3. 针对性的损失函数
- 采用 Multi-class Focal Loss (MCFL),通过调节 Focusing Parameter (),强制模型降低对简单样本(正常音)的关注,将能量集中在难分的异常样本上。
五、 实验结果说明了什么?
基于 SPRSound 数据集的实验结果非常具有说服力:
1. 综合性能表现
WLANN 在多个维度上超越了现有的 TRespNET 和 DenseNet 方案:
- Sensitivity (敏感度): 90.3% (代表漏诊率极低)
- Specificity (特异性): 96.9%
- Total Score: 93.6%
2. 消融实验揭示真相
| 模型组合方式 | Total Score (TS) | 结论 |
|---|---|---|
| 仅 Waveform-CNN | 55.9% | 单一波形特征表现有限 |
| 仅 Spectrogram-AST | 85.8% | 频谱是基础,但有提升空间 |
| WLANN (CNN+AST+Bi-GRU) | 93.6% | 双流融合+时序建模是黄金组合 |
六、 读后感与启发
- 问题驱动的设计:作者针对“频谱分辨率不足”和“时序细节丢失”两个具体病灶下药,这种思路比盲目追求复杂模型更有效。
- 指标的临床意义:在医学 AI 领域,Sensitivity 往往比 Accuracy 更重要。WLANN 通过 Focal Loss 和 Bi-GRU 换取了极高的敏感度,更符合临床需求。
- 技术范式:这篇文章再次证明了在处理生物医学信号时,**“原始信号 + 变换域特征 + 时序上下文”**是一条非常稳健的 SOTA 路径。
七、 引用信息
Xie, J., Zhou, Y., Xu, M. (2024). Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification. In: 2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII). IEEE, pp. 65–69. DOI: 10.1109/CEII65291.2024.00022.