告别“模糊”与“迟钝”!首创波动方程建模视觉,ImageNet 84.2%,推理速度飙升

0 阅读5分钟

在深度学习视觉建模领域,如何既实现高效的全局语义交互,又能精准保留图像中的高频细节(如边缘和纹理),一直是一个关键难题。传统的卷积神经网络(CNN)依赖局部感受野,难以建模长程依赖;而视觉Transformer(ViT)虽然通过自注意力实现了全局交互,但其二次复杂度限制了在高分辨率图像上的应用,且缺乏对空间频率传播的显式建模。更重要的是,多数基于物理启发的模型(如热传导方法)倾向于过度平滑高频信号,导致细节丢失。

那么,是否存在一种既能保持全局语义连贯性,又能避免高频信息被过度过滤的物理建模方式?

最近,北京大学和清华大学研究团队提出了一种全新的思路:将视觉特征传播建模为波动方程中的阻尼振荡过程,从而在频率与时间解耦的框架下,实现高效且细节保留的全局建模。

从“热传导”到“波动方程”:一种频率友好的传播机制

传统基于热传导的方法在频域中相当于一个强低通滤波器,高频成分会随时间迅速衰减,导致特征平滑、细节模糊。而波动方程描述的是一种振荡传播机制:不同频率的成分在传播过程中以阻尼振荡的形式共存,低频决定整体结构,高频保留局部细节,且衰减与频率无关。

将特征图视为空间信号,将其演化建模为一个二维阻尼波动方程:

screenshot_2026-01-21_14-29-29.png

其中 u 表示语义场,v 为传播速度,α 为阻尼系数。通过对该方程在频域中求解,得到了一个闭式解,实现了频率与时间的解耦:阻尼项screenshot_2026-01-21_14-32-48.png对所有频率成分一致衰减,而振荡项screenshot_2026-01-21_14-32-56.pngscreenshot_2026-01-21_14-33-03.png则保留了频率特性。

Wave Propagation Operator(WPO):波动传播的可计算模块

screenshot_2026-01-21_13-57-46.png

基于上述理论,研究者提出了 Wave Propagation Operator(WPO),这是一个轻量级模块,用于在频域中模拟波动传播过程。其计算过程如下:

  1. 将输入特征图通过傅里叶变换转换到频域;
  2. 利用闭式解对每个频率分量进行阻尼振荡调制;
  3. 通过逆傅里叶变换将结果映射回空间域。

整个过程复杂度仅为screenshot_2026-01-21_14-34-31.png,远低于自注意力的screenshot_2026-01-21_14-34-38.png,且保留了全局交互能力与高频细节。

  • WaveFormer:一个即插即用的视觉骨干网络

screenshot_2026-01-21_14-00-22.png

基于WPO,研究者构建了一系列WaveFormer模型(Tiny/Small/Base),可作为标准ViT或CNN的直接替代。模型采用分层设计,每个阶段包含多个Wave Propagation Layer,结合深度卷积与前馈网络,实现多尺度特征提取。

为什么波动传播适合视觉建模?实验给出的有力证据

screenshot_2026-01-21_14-01-27.png

与热传导相比,波动传播具有以下理论优势:

  • 频率平衡: 振荡机制使能量在高低频之间更均匀分布;
  • 细节保留: 高频成分通过振荡项得以保留,避免过度平滑;
  • 双向传播: 支持信息的可逆传递,更符合语义传播的物理直觉;
  • 高效计算: 频域实现带来接近线性的复杂度。

那么,这些理论优势是否转化为了实际性能的提升?实验给出了肯定的答案:

  1. 图像分类(ImageNet-1K): WaveFormer在保持高效的同时,实现了更高的准确率。例如,WaveFormer-Base 以 10.8G FLOPs68M参数 取得了 84.2% 的Top-1准确率,超过了Swin-B (83.5%) 和 vHeat-B (84.0%)。其推理吞吐量达到 719 img/s,显著高于同类模型。
  2. 目标检测与实例分割(COCO): 在密集预测任务中,WaveFormer展现出更强的边界和细节建模能力。使用Mask R-CNN框架,WaveFormer-Tiny 在1x训练调度下取得了 45.8% AP^b 和 41.5% AP^m,分别比Swin-T高出  +3.1% 和  +2.2% ,同时保持了更高的推理速度(FPS)。
  3. 语义分割(ADE20K): 这项任务对高频细节(如物体边界)的保留要求极高。WaveFormer-Base 在ADE20K数据集上达到了 50.5% mIoU,超越了同样基于物理启发的 vHeat-B (49.6%) ,以及 ConvNeXt-B (49.1%) 。这直接证明了其“频率-时间解耦”机制在保留精细结构上的有效性。

screenshot_2026-01-21_14-02-24.png

screenshot_2026-01-21_14-04-07.png

screenshot_2026-01-21_14-04-12.png

这些实验结果一致表明,波动传播机制不仅是一种理论上的优雅设计,更在实践中带来了精度、效率与细节保真度的全面优势。

总结:波动方程为视觉建模注入物理直觉

WaveFormer的提出,不仅为视觉表示学习提供了一种高效、可解释的建模范式,也展示了物理方程与深度学习结合的潜力。通过将波动方程引入视觉传播过程,研究者成功实现了频率与时间的解耦,在保持全局语义的同时,精准保留了图像的高频细节。

这一工作也为未来视觉骨干网络的设计提供了新方向:如何将更多物理机制(如波动、扩散、对流等)融入深度学习架构,以带来更强大的归纳偏置与更高效的计算范式。

论文链接:arxiv.org/abs/2601.08…

代码开源:github.com/ZishanShu/W…