在深度学习视觉建模领域,如何既实现高效的全局语义交互,又能精准保留图像中的高频细节(如边缘和纹理),一直是一个关键难题。传统的卷积神经网络(CNN)依赖局部感受野,难以建模长程依赖;而视觉Transformer(ViT)虽然通过自注意力实现了全局交互,但其二次复杂度限制了在高分辨率图像上的应用,且缺乏对空间频率传播的显式建模。更重要的是,多数基于物理启发的模型(如热传导方法)倾向于过度平滑高频信号,导致细节丢失。
那么,是否存在一种既能保持全局语义连贯性,又能避免高频信息被过度过滤的物理建模方式?
最近,北京大学和清华大学研究团队提出了一种全新的思路:将视觉特征传播建模为波动方程中的阻尼振荡过程,从而在频率与时间解耦的框架下,实现高效且细节保留的全局建模。
从“热传导”到“波动方程”:一种频率友好的传播机制
传统基于热传导的方法在频域中相当于一个强低通滤波器,高频成分会随时间迅速衰减,导致特征平滑、细节模糊。而波动方程描述的是一种振荡传播机制:不同频率的成分在传播过程中以阻尼振荡的形式共存,低频决定整体结构,高频保留局部细节,且衰减与频率无关。
将特征图视为空间信号,将其演化建模为一个二维阻尼波动方程:
其中 u 表示语义场,v 为传播速度,α 为阻尼系数。通过对该方程在频域中求解,得到了一个闭式解,实现了频率与时间的解耦:阻尼项对所有频率成分一致衰减,而振荡项
和
则保留了频率特性。
Wave Propagation Operator(WPO):波动传播的可计算模块
基于上述理论,研究者提出了 Wave Propagation Operator(WPO),这是一个轻量级模块,用于在频域中模拟波动传播过程。其计算过程如下:
- 将输入特征图通过傅里叶变换转换到频域;
- 利用闭式解对每个频率分量进行阻尼振荡调制;
- 通过逆傅里叶变换将结果映射回空间域。
整个过程复杂度仅为,远低于自注意力的
,且保留了全局交互能力与高频细节。
- WaveFormer:一个即插即用的视觉骨干网络
基于WPO,研究者构建了一系列WaveFormer模型(Tiny/Small/Base),可作为标准ViT或CNN的直接替代。模型采用分层设计,每个阶段包含多个Wave Propagation Layer,结合深度卷积与前馈网络,实现多尺度特征提取。
为什么波动传播适合视觉建模?实验给出的有力证据
与热传导相比,波动传播具有以下理论优势:
- 频率平衡: 振荡机制使能量在高低频之间更均匀分布;
- 细节保留: 高频成分通过振荡项得以保留,避免过度平滑;
- 双向传播: 支持信息的可逆传递,更符合语义传播的物理直觉;
- 高效计算: 频域实现带来接近线性的复杂度。
那么,这些理论优势是否转化为了实际性能的提升?实验给出了肯定的答案:
- 图像分类(ImageNet-1K): WaveFormer在保持高效的同时,实现了更高的准确率。例如,WaveFormer-Base 以 10.8G FLOPs 和 68M参数 取得了 84.2% 的Top-1准确率,超过了Swin-B (83.5%) 和 vHeat-B (84.0%)。其推理吞吐量达到 719 img/s,显著高于同类模型。
- 目标检测与实例分割(COCO): 在密集预测任务中,WaveFormer展现出更强的边界和细节建模能力。使用Mask R-CNN框架,WaveFormer-Tiny 在1x训练调度下取得了 45.8% AP^b 和 41.5% AP^m,分别比Swin-T高出 +3.1% 和 +2.2% ,同时保持了更高的推理速度(FPS)。
- 语义分割(ADE20K): 这项任务对高频细节(如物体边界)的保留要求极高。WaveFormer-Base 在ADE20K数据集上达到了 50.5% mIoU,超越了同样基于物理启发的 vHeat-B (49.6%) ,以及 ConvNeXt-B (49.1%) 。这直接证明了其“频率-时间解耦”机制在保留精细结构上的有效性。
这些实验结果一致表明,波动传播机制不仅是一种理论上的优雅设计,更在实践中带来了精度、效率与细节保真度的全面优势。
总结:波动方程为视觉建模注入物理直觉
WaveFormer的提出,不仅为视觉表示学习提供了一种高效、可解释的建模范式,也展示了物理方程与深度学习结合的潜力。通过将波动方程引入视觉传播过程,研究者成功实现了频率与时间的解耦,在保持全局语义的同时,精准保留了图像的高频细节。
这一工作也为未来视觉骨干网络的设计提供了新方向:如何将更多物理机制(如波动、扩散、对流等)融入深度学习架构,以带来更强大的归纳偏置与更高效的计算范式。