SOTA 预警：基于波形与对数梅尔谱融合的音频分类算法详解论文阅读笔记：Waveform-Logmel Audio Ne

论文阅读笔记：Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification

一、读到这篇文章的起点

在医学音频（如呼吸音）的智能诊断中，一个核心争议点始终存在：对于呼吸音这种复杂的信号，我们应该看重“波形”还是“频谱”？

单纯的波形（Waveform）保留了最原始的时域细节，但缺乏显式的频率表达；而对数梅尔谱（Log-mel Spectrogram）虽然符合人类听觉特性，却在处理高频信号和时间分辨率上存在天然的权衡（Trade-off）。

带着“如何结合两者优势以提升异常呼吸音识别率”的问题，我研读了发表于 CEII 2024 的这篇论文：《Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification》。

二、论文来源与背景

会议名称：2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII 2024)
举办地：新加坡南洋理工大学（2024年12月14–16日）
出版信息：IEEE CPS 出版，DOI: 10.1109/CEII65291.2024.00022
核心定位：聚焦于利用深度学习技术，解决临床中关键的**异常呼吸音（Crackles & Wheezes）**自动分类难题。

三、这篇文章主要在解决什么问题？

文章的核心使命是：提高对异常呼吸音的识别能力，特别是针对那些关键但难以捕捉的病理声音。

作者指出，现有的 Audio Spectrogram Transformer (AST) 虽然在正常呼吸音识别上表现不错，但在面对以下挑战时显得力不从心：

类别不平衡：临床数据中正常音远多于异常音。
特征缺失：单一的频谱表示会丢失短时结构和局部频率细节。
临床相关性：**Crackles（湿啰音）**通常与肺炎、肺纤维化相关，而 **Wheezes（哮鸣音）**多见于哮喘。AI 必须能稳健地识别出这些“病理信号”，才具有临床价值。

四、技术架构：WLANN 框架拆解

作者提出的模型名为 WLANN，其精妙之处在于将问题拆解为“看什么”与“怎么看”。

1. 双流输入表示

Waveform-CNN 分支：使用 1D-CNN 直接处理原始波形。通过设置特定的 Kernel Size (80) 和 Stride (5)，使其每秒产生 25 帧特征，精准捕捉时域中的细微波动。
Spectrogram-AST 分支：处理 Log-mel 频谱。利用 Transformer 的自注意力机制获取全局的频域上下文信息。

2. 特征融合与时序建模（核心创新）

模型并没有简单地将特征拼接后就输出结果，而是引入了 Bi-GRU（双向循环神经网络）：

逻辑：呼吸音是时变信号，异常特征往往隐藏在“帧与帧”的演变中。
做法：将 CNN 和 AST 的输出拼接后，送入 Bi-GRU 建模帧级上下文（Frame-level context），这极大地提升了模型对短促异常音的敏感度。

3. 针对性的损失函数

采用 Multi-class Focal Loss (MCFL)，通过调节 Focusing Parameter ( $\gamma = 2.0$ )，强制模型降低对简单样本（正常音）的关注，将能量集中在难分的异常样本上。

五、实验结果说明了什么？

基于 SPRSound 数据集的实验结果非常具有说服力：

1. 综合性能表现

WLANN 在多个维度上超越了现有的 TRespNET 和 DenseNet 方案：

Sensitivity (敏感度): 90.3% （代表漏诊率极低）
Specificity (特异性): 96.9%
Total Score: 93.6%

2. 消融实验揭示真相

模型组合方式	Total Score (TS)	结论
仅 Waveform-CNN	55.9%	单一波形特征表现有限
仅 Spectrogram-AST	85.8%	频谱是基础，但有提升空间
WLANN (CNN+AST+Bi-GRU)	93.6%	双流融合+时序建模是黄金组合

六、读后感与启发

问题驱动的设计：作者针对“频谱分辨率不足”和“时序细节丢失”两个具体病灶下药，这种思路比盲目追求复杂模型更有效。
指标的临床意义：在医学 AI 领域，Sensitivity 往往比 Accuracy 更重要。WLANN 通过 Focal Loss 和 Bi-GRU 换取了极高的敏感度，更符合临床需求。
技术范式：这篇文章再次证明了在处理生物医学信号时，**“原始信号 + 变换域特征 + 时序上下文”**是一条非常稳健的 SOTA 路径。

七、引用信息

Xie, J., Zhou, Y., Xu, M. (2024). Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification. In: 2024 7th Asia Conference on Cognitive Engineering and Intelligent Interaction (CEII). IEEE, pp. 65–69. DOI: 10.1109/CEII65291.2024.00022.

SOTA 预警：基于波形与对数梅尔谱融合的音频分类算法详解

论文阅读笔记：Waveform-Logmel Audio Neural Networks for Respiratory Sound Classification

一、 读到这篇文章的起点

二、 论文来源与背景

三、 这篇文章主要在解决什么问题？

四、 技术架构：WLANN 框架拆解