告别“模糊”与“迟钝”！首创波动方程建模视觉，ImageNet 84.2%，推理速度飙升在深度学习视觉建模领域，如何既实

在深度学习视觉建模领域，如何既实现高效的全局语义交互，又能精准保留图像中的高频细节（如边缘和纹理），一直是一个关键难题。传统的卷积神经网络（CNN）依赖局部感受野，难以建模长程依赖；而视觉Transformer（ViT）虽然通过自注意力实现了全局交互，但其二次复杂度限制了在高分辨率图像上的应用，且缺乏对空间频率传播的显式建模。更重要的是，多数基于物理启发的模型（如热传导方法）倾向于过度平滑高频信号，导致细节丢失。

那么，是否存在一种既能保持全局语义连贯性，又能避免高频信息被过度过滤的物理建模方式？

最近，北京大学和清华大学研究团队提出了一种全新的思路：将视觉特征传播建模为波动方程中的阻尼振荡过程，从而在频率与时间解耦的框架下，实现高效且细节保留的全局建模。

从“热传导”到“波动方程”：一种频率友好的传播机制

传统基于热传导的方法在频域中相当于一个强低通滤波器，高频成分会随时间迅速衰减，导致特征平滑、细节模糊。而波动方程描述的是一种振荡传播机制：不同频率的成分在传播过程中以阻尼振荡的形式共存，低频决定整体结构，高频保留局部细节，且衰减与频率无关。

将特征图视为空间信号，将其演化建模为一个二维阻尼波动方程：

其中 u 表示语义场，v 为传播速度，α 为阻尼系数。通过对该方程在频域中求解，得到了一个闭式解，实现了频率与时间的解耦：阻尼项对所有频率成分一致衰减，而振荡项和则保留了频率特性。

Wave Propagation Operator（WPO）：波动传播的可计算模块

基于上述理论，研究者提出了 Wave Propagation Operator（WPO），这是一个轻量级模块，用于在频域中模拟波动传播过程。其计算过程如下：

将输入特征图通过傅里叶变换转换到频域；
利用闭式解对每个频率分量进行阻尼振荡调制；
通过逆傅里叶变换将结果映射回空间域。

整个过程复杂度仅为，远低于自注意力的，且保留了全局交互能力与高频细节。

WaveFormer：一个即插即用的视觉骨干网络

基于WPO，研究者构建了一系列WaveFormer模型（Tiny/Small/Base），可作为标准ViT或CNN的直接替代。模型采用分层设计，每个阶段包含多个Wave Propagation Layer，结合深度卷积与前馈网络，实现多尺度特征提取。

为什么波动传播适合视觉建模？实验给出的有力证据

与热传导相比，波动传播具有以下理论优势：

频率平衡： 振荡机制使能量在高低频之间更均匀分布；
细节保留： 高频成分通过振荡项得以保留，避免过度平滑；
双向传播： 支持信息的可逆传递，更符合语义传播的物理直觉；
高效计算： 频域实现带来接近线性的复杂度。

那么，这些理论优势是否转化为了实际性能的提升？实验给出了肯定的答案：

图像分类（ImageNet-1K）： WaveFormer在保持高效的同时，实现了更高的准确率。例如，WaveFormer-Base 以 10.8G FLOPs 和 68M参数 取得了 84.2% 的Top-1准确率，超过了Swin-B (83.5%) 和 vHeat-B (84.0%)。其推理吞吐量达到 719 img/s，显著高于同类模型。
目标检测与实例分割（COCO）： 在密集预测任务中，WaveFormer展现出更强的边界和细节建模能力。使用Mask R-CNN框架，WaveFormer-Tiny 在1x训练调度下取得了 45.8% AP^b 和 41.5% AP^m，分别比Swin-T高出 +3.1% 和 +2.2% ，同时保持了更高的推理速度（FPS）。
语义分割（ADE20K）： 这项任务对高频细节（如物体边界）的保留要求极高。WaveFormer-Base 在ADE20K数据集上达到了 50.5% mIoU，超越了同样基于物理启发的 vHeat-B (49.6%) ，以及 ConvNeXt-B (49.1%) 。这直接证明了其“频率-时间解耦”机制在保留精细结构上的有效性。

这些实验结果一致表明，波动传播机制不仅是一种理论上的优雅设计，更在实践中带来了精度、效率与细节保真度的全面优势。

总结：波动方程为视觉建模注入物理直觉

WaveFormer的提出，不仅为视觉表示学习提供了一种高效、可解释的建模范式，也展示了物理方程与深度学习结合的潜力。通过将波动方程引入视觉传播过程，研究者成功实现了频率与时间的解耦，在保持全局语义的同时，精准保留了图像的高频细节。

这一工作也为未来视觉骨干网络的设计提供了新方向：如何将更多物理机制（如波动、扩散、对流等）融入深度学习架构，以带来更强大的归纳偏置与更高效的计算范式。

论文链接：arxiv.org/abs/2601.08…

代码开源：github.com/ZishanShu/W…