CVPR 2026 | MixerCSeg:仅2.05 GFLOPs刷新四大裂缝分割基准!解耦Mamba隐式注意力,CNN+Transformer+Mamba三

0 阅读7分钟

这篇论文为什么值得读?

695 GFLOPs vs 2 GFLOPs。

同一个裂缝分割任务,精度更高,计算量只有别人的 0.3%。

如果你做过工业视觉部署,你知道这意味着什么——一个原本只能跑在 A100 上的模型,现在有可能塞进路边的巡检设备里。

但效率只是结果,真正值得关注的是背后的思路:

1. "先理解再设计"比"先堆叠再调参"高明得多。 之前的混合架构把 CNN、Transformer、Mamba 当积木拼。MixerCSeg 先深入分析 Mamba 的隐式注意力机制,发现 Δt 天然地将通道分为全局和局部两类,然后顺势而为地把它们交给最合适的处理路径。

2. 极致效率打开了边缘部署的可能性。 2.05 GFLOPs、2.54M 参数、1190 MiB 显存——这个量级可以塞进嵌入式设备。对路面巡检车、桥梁监测无人机来说,这不是"学术上的改进",而是"能不能用"的分界线。

3. "深度=1 最优"值得更多任务借鉴。 在"更深=更好"的惯性思维下,MixerCSeg 用数据证明:对依赖细粒度边缘特征的任务,单层足矣,更深只会帮倒忙。

这篇论文叫  《MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention》 ,来自山东大学齐鲁交通学院和杜兰大学的联合团队,已被 CVPR 2026 接收,代码已开源(github.com/spiderforest/MixerCSeg)。


为什么裂缝分割这么难?

路面裂缝分割是基础设施健康监测的关键技术。但裂缝可能细如发丝,也可能交叉成网,加上低对比度和不均匀纹理,精确的像素级分割一直是老大难。

当前的深度学习方案围绕三种架构展开,但各有硬伤:

  • CNN(DeepCrack、SDDNet):局部纹理提取快,但感受野有限,看不到长距离的像素依赖
  • Transformer(CrackFormer、DTrCNet):能建模全局依赖,但计算复杂度二次方增长,推理慢
  • Mamba(SCSegamba、CrackMamba):线性复杂度的全局建模,但单次前向对全局上下文的利用不够充分

有人尝试过混合架构——比如 MambaVision、RestorMixer——但它们只是把不同模块简单堆在一起,串行或并行。相当于三个专家坐在一起开会,各说各话。

MixerCSeg 的思路完全不同:不是从外部"拼装"三种架构,而是从 Mamba 内部"拆解"出混合表示的能力。


核心发现:Mamba 里藏着两套注意力

这是整篇论文最有洞察力的部分。

在 Mamba 的状态空间模型中,有一个关键参数 Δt,控制着每个 token 的信息传播范围:

  • Δt → 0:当前 token 被丢弃,历史信息被保留 → 信息只在局部流动
  • Δt > 0:当前 token 与衰减后的历史叠加 → 信息在全局传播

论文通过可视化 VMamba 的通道级注意力热力图证实了这一点:不同通道的 Δt 值天然地分成两类——一些通道的感受野覆盖全图(全局通道),另一些只关注邻域区域(局部通道)。

图片

翻译成人话:Mamba 自己已经在做"全局+局部"的混合表示了,只是把这两种能力混在一起,没有被单独优化过。

TransMixer 做的事情,就是把这种隐式分工变成显式设计——全局通道交给 Self-Attention 进一步增强长距离依赖,局部通道交给 CNN 精炼细粒度纹理。

不是"把三个专家凑在一起",而是"在一个专家体内发现了三种能力,然后各自强化"。


方法:三个模块,一条流水线

图片

模块一:TransMixer——解耦式混合编码器

整个流程分四步:

Step 1:输入序列经过 Mamba(Linear → Conv1D → SSM)得到输出 Y。Mamba 中每个 token 对输出的贡献可量化为注意力权重 α_i,j,由 Δt 决定信息流通范围。

Step 2:对 Δt 沿通道维度排序,取 top 50% 通道(γ=0.5)为"全局 token",剩余 50% 为"局部 token"。

Step 3:分路增强——

  • 全局 token → Self-Attention → 增强长距离依赖
  • 局部 token → GroupNorm → MaxPool → Conv1×1 → Sigmoid 逐元素加权 → 精炼局部细节

Step 4:合并回原始通道顺序,输出特征图。

图片

模块二:DEGConv——方向引导边缘门控卷积

裂缝沿多个方向延伸和分支,普通卷积对这种不规则边缘的感知力不够。DEGConv 的做法:

  1. 把特征图切成小块(cell 8×8)
  2. 每个小块用 Sobel 算子计算梯度 → arctan(dy/dx) 得到方向角 → 统计 180 个方向区间的方向直方图 → 经 Conv1×1 → Conv3×3 生成方向嵌入向量 ε
  3. 用方向嵌入增强后的特征做门控 EdgeConv(内部用 1×k 和 k×1 条形卷积提取双方向特征)——方向对的地方权重高,方向不对的被抑制

关键:这个模块只增加 0.08 GFLOPs和 0.14M参数。几乎零成本引入了几何先验。

模块三:SRF——空间精炼多级融合

用最高分辨率的特征图生成一张空间注意力图,用它来引导低分辨率特征的上采样融合。

替换 SegFormer 解码器后,计算量降低 89.3%,显存下降 67.2%,精度反而还有提升。


四张表看懂效果

实验在单张 NVIDIA A100 上完成,输入尺寸 512×512,训练 50 epoch(batch=1, AdamW, lr=5e-4),覆盖 DeepCrack(537 张)、CamCrack789(789 张)、CrackMap(120 张)、Crack500(3368 张)四个数据集。

表 1:精度——四个数据集全部 SOTA

方法DeepCrack mIoUCamCrack789 mIoUCrackMap mIoUCrack500 mIoU
U-Net0.89870.83720.79830.7105
SCSegamba0.90220.82680.80940.7778
RestorMixer0.90080.83560.78870.7425
MambaVision0.89910.81460.77370.7015
MixerCSeg0.91510.84090.81230.7824

DeepCrack 上 mIoU 达到 91.51%,比次优 SCSegamba 高出 1.29 个百分点。四个数据集全面领先,没有短板。

图片

表 2:效率——碾压级优势

方法FLOPs (G)参数量 (M)显存 (MiB)
RINDNet695.7759.395392
MambaVision642.8613.575222
U-Net204.3828.994394
RestorMixer98.713.1910384
SCSegamba18.162.802206
MixerCSeg2.052.541190

核心数据:

  • 计算量 2.05 GFLOPs,比 SCSegamba 少 88.7%,比 RINDNet 少 99.7%
  • 显存仅 1190 MiB,比 RestorMixer(10384 MiB)少 88.5%
  • 精度最高的同时,计算资源消耗全面最低

表 3:消融——每个模块都在干活

TransMixerDEGConvSRFFLOPs(G)DeepCrack mIoU
17.740.8826
19.100.9016
19.180.9097
2.050.9151

TransMixer 是主力(+1.9%),DEGConv 低成本增益(+0.81%,仅 +0.08G),SRF 替换解码器后精度再涨 0.54% 的同时把计算量从 19G 直接砍到 2G

表 4:深度=1 最优——最反直觉的发现

网络深度FLOPs(G)参数量(M)DeepCrack mIoU
12.052.540.9151
23.514.760.9141
46.429.200.9126
69.3313.630.9073

单层 TransMixer 即为最优。 深度从 1 增到 6,计算量涨了 355%,参数涨了 437%,精度反而掉了 0.78%。

论文的解释是:对裂缝这种高度依赖局部细粒度特征的任务,更深的网络会导致边缘过度平滑和优化困难。


写在最后

混合架构不是新概念,但大多数工作只是在做"1+1+1"的堆叠。

MixerCSeg 的贡献在于它回答了一个更深层的问题:Mamba 内部到底在做什么? 答案是——它已经在隐式地做全局+局部的混合表示,只是没有人把这两种能力拆开、放大、各自优化过。

当你理解了这一点,CNN+Transformer+Mamba 的协同就不再是三个模块的拼装,而是一个模型内部能力的自然延伸。

2 GFLOPs,四大基准全 SOTA。有时候,真正的效率来自于对模型本身的深入理解,而不是更多的参数。

不过,从我们的角度看,这篇工作也留下了几个值得继续探索的方向:

  • Crack500 上的领先幅度有限(mIoU +0.46%)。Crack500 以宽裂缝、低曲率为主,与细密裂缝的分割需求差异较大,MixerCSeg 的优势在这类场景中没有完全释放。
  • 方向嵌入依赖 Sobel 先验。当前的方向感知基于手工设计的梯度算子,面对极端光照或严重遮挡时,可学习的方向预测可能更鲁棒。
  • 缺少实际推理帧率(FPS)报告。论文给出了 FLOPs 和显存,但对于工程部署来说,实际推理速度才是最终指标。2.05 GFLOPs 的理论计算量能否转化为边缘设备上的实时推理,还需要实测验证。

论文信息

  • 标题:MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention
  • 作者:Zilong Zhao, Zhengming Ding, Pei Niu, Wenhao Sun, Feng Guo
  • 机构:山东大学齐鲁交通学院、杜兰大学计算机科学系
  • 会议:CVPR 2026
  • arXiv:2603.01361v1
  • 代码:github.com/spiderforest/MixerCSeg