2DMamba 精读:从小白到博士,彻底拆解 2DMamba 让 Mamba 不再只会按一维序列思考,而是真正学会按二维图像结构思考

3 阅读19分钟

2DMamba 精读:从小白到博士,彻底拆解 2DMamba 让 Mamba 不再只会按一维序列思考,而是真正学会按二维图像结构思考

论文标题:2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
论文链接:2DMamba
文章定位:论文深度精读 / 2DMamba核心技术拆解 / Mamba二维化突破解析 / 计算机视觉(CV)技术落地导向,打破技术壁垒,用分层视角拆解2DMamba如何让Mamba适配二维图像结构,兼顾理论深度与实操参考。
适合人群:AI入门者、计算机相关专业本科生(零基础可读懂);CV/图形学、状态空间模型(SSM)方向研究生(夯实理论、拓展研究视角);准备复现论文、开展相关算法优化、探索千兆像素图像分类落地的博士生与工程技术研究人员(聚焦实操与创新点) 在这里插入图片描述


一句提示词帮你速通论文

提示词

你现在是一位计算机视觉的博士,请你仔细阅读这篇论文,并将其拆解为小白阶段、硕士阶段、博士阶段。一定要引人入胜,客观具体,且极为详细。小白阶段你需要达到是个傻子都能懂的情况,在硕士阶段你需要达到正常使用一些专业数据,帮助小白从傻子到小专家的突破,在博士阶段你需要仔细拆解整篇论文,把各项细节全部记录,方便后期进行复现,同时促使小专家成为资深大拿

镜像地址,ChatGTP 最新模型 助您深入解析、速通论文

邀请码地址,ChatGTP 最新模型 助您深入解析、速通论文

前言

在计算机视觉尤其是数字病理领域,如何高效建模超大分辨率图像,一直是一个非常有挑战的问题。传统 Transformer 虽然建模能力强,但在超长序列场景下计算开销巨大;而近年来兴起的 Mamba / State Space Model(状态空间模型)路线,则提供了一种更高效的长序列建模思路。

但问题在于:图像天然是二维结构,而大多数视觉 Mamba 方法依然会先把图像展平成一维序列再处理。 这一步虽然方便,但会破坏原本重要的空间邻接关系。对于 Whole Slide Image(WSI,全切片病理图像)这种极度依赖空间结构的任务来说,这个问题尤其严重。

本文我们就来系统拆解一篇非常有代表性的论文:

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

这篇论文的价值,不只是“提出了一个新模块”这么简单,而是它试图回答一个非常本质的问题:

能不能让 Mamba 不再只会按一维序列思考,而是真正学会按二维图像结构思考?

为了方便不同基础的读者阅读,本文将从三个层次展开:

  • 小白阶段:用最通俗的话讲清楚这篇论文到底在解决什么问题
  • 硕士阶段:引入必要的专业术语、实验设计和核心结论,帮助建立研究理解
  • 博士阶段:按复现和进一步研究的标准,对整篇论文做系统拆解,方便后续深入实现和扩展

一、论文信息速览

1. 论文标题

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

2. 论文核心任务

这篇论文主要关注两个层面的任务:

  • 面向数字病理的超大图像建模
    • Whole Slide Image(WSI)分类
    • WSI 生存分析
  • 面向通用视觉任务的二维表示学习
    • ImageNet-1K 图像分类
    • ADE20K 语义分割

3. 论文的核心思想

一句话总结:

不要再把二维图像粗暴拉平成一维序列,而是直接在二维网格上做状态空间建模。

这就是 2DMamba 的本质。


二、小白阶段:把这篇论文讲到“零基础也能看懂”

1. 这篇论文到底想解决什么问题?

你可以把它想象成这样一个场景:

你有一张特别特别大的地图,地图上有很多建筑物、街道、河流。
现在你要判断这张地图属于哪种城市类型。

最简单的方法是把地图切成很多小块,然后一块一块看。
但这么做会有一个大问题:

你知道每一块长什么样,却不知道这些块彼此在地图上的上下左右关系。

这正是 Whole Slide Image(全切片病理图像)面临的典型问题。

一张病理切片特别大,可能高达十万乘十万像素,根本不可能直接送进模型。所以常见做法是:

  1. 先把整张大图切成很多 patch
  2. 每个 patch 提取一个特征
  3. 再把这些 patch 特征交给模型做最终判断

问题来了:

  • 如果这些 patch 被当成“一个袋子”看待,那么空间关系就没了
  • 如果这些 patch 被排成“一条序列”来处理,那么原本二维空间中的邻近关系就会被扭曲

而这篇论文,就是要解决这个问题。


2. 为什么“把图像拉平成一维”会出问题?

图像天生是二维的。

比如下面这种关系非常重要:

  • 一个细胞挨着哪种细胞
  • 某个肿瘤区域的边界如何变化
  • 某个组织模式在空间上如何延展

这些都不是单点信息,而是空间关系信息

但如果你把二维 patch 网格拉平成一维序列,就会出现一种很尴尬的情况:

  • 本来在图像里上下相邻的两个 patch
  • 在一维序列里可能被隔得很远

这就好比:

你看一本书,正常是按段落顺序看;
但有人把每页剪成方块,再打乱成一条长纸带让你读。

你当然还是能读,但很多本来相邻的内容被隔开了,上下文理解会变差。

这篇论文把这个问题称为:

空间失真 / 空间错位(spatial discrepancy)


3. 作者提出的解决思路是什么?

既然图像是二维的,那就直接按二维方式处理。

别先拉成一条线,再让模型“脑补”它是图像。
而是:

  • 先按行进行扫描
  • 再按列进行扫描
  • 让信息在二维网格里传播

这样一来,模型学习到的关系就更接近图像本来的空间结构。

这就是 2DMamba


4. 为什么这件事在病理图像里尤其重要?

因为病理图像和普通自然图像很不一样。

病理图像有三个典型特点:

(1)超大

Whole Slide Image 往往是 Giga-pixel 级别,也就是十亿像素级别。

(2)不能直接整图输入

必须切成许多 patch,再做后续处理。

(3)高度依赖空间结构

癌细胞和正常组织的排列方式、浸润模式、边界形态,往往比单个局部纹理更重要。

所以如果你丢掉二维空间关系,模型就容易“只看局部,不看结构”。

而 2DMamba 的价值就在于:

它不是只记住有哪些 patch,而是尽可能保留 patch 之间原有的二维空间联系。


5. 这篇论文最终做到了什么?

论文实验表明,2DMamba 在多个任务上都有不错收益。

在病理 WSI 分类与生存分析上:

  • 分类任务中,AUC、F1、Accuracy 都取得提升
  • 生存分析中,C-index 也明显优于多种基线方法

在自然图像任务上:

  • ImageNet 分类有小幅提升
  • ADE20K 语义分割提升更明显

这说明它并不是只对病理有效,而是一个具备一定通用性的二维建模思想。


三、基础铺垫:读懂 2DMamba 之前必须知道的几个概念

1. 什么是 WSI?

WSI 是 Whole Slide Image,也就是全切片数字病理图像。

现实中的病理切片会被扫描成超高分辨率图像,用于辅助诊断、分型、预后分析等任务。

WSI 的难点在于:

  • 分辨率极高
  • 有效组织区域不规则
  • 背景区域多
  • 任务往往依赖多尺度与空间结构

2. 什么是 MIL?

MIL 是 Multiple Instance Learning,多实例学习。

在 WSI 里,一张大切片通常被切成很多 patch。
一整张切片有一个标签,但单个 patch 通常没有标签。

所以模型要做的是:

  • 输入:很多 patch 特征组成的一个 bag
  • 输出:这个 bag 对应的 slide-level 结果

这是 WSI 分析里最经典的设定之一。


3. 什么是 Mamba?

Mamba 可以理解为:

一种高效的长序列建模模型,它基于状态空间模型(SSM)发展而来。

相比 Transformer,Mamba 的一个很大优势是:

  • 在长序列上计算复杂度更友好
  • 内存和吞吐表现更适合超长输入

所以它近年来在视觉、语言等方向都很火。

但它最初本质上还是为一维序列设计的。


4. 什么是状态空间模型(SSM)?

如果用最通俗的话来解释:

状态空间模型会维护一个“内部记忆状态”,当前时刻的输出由两部分决定:

  • 之前记住了什么
  • 当前新输入了什么

你可以把它理解成一个“会持续更新记忆的系统”。

在序列建模中,SSM 非常适合处理长上下文,因为它不是每次都做全局两两比较,而是通过状态递推来传递信息。


四、硕士阶段:进入论文的专业理解

1. 论文的问题定义非常精准

这篇论文并不是泛泛地说“我们提出了一个更好的网络”。

它的真正问题定义是:

如何在保持 Mamba 线性复杂度和高效性的前提下,让它适配二维图像表示学习?

过去一些视觉 Mamba 工作虽然也在处理图像,但很多方法仍然会:

  • 先把图像 patch 展平成一维序列
  • 再使用 1D selective scan 进行建模

作者认为,这种设计始终没有跳出一维建模框架。

问题的核心矛盾是:

  • 1D Mamba 很高效,但不天然适合二维图像
  • 真正 2D 的状态空间建模更合理,但实现上更难、更慢

2DMamba 的目标,就是在这两者之间找到平衡点。


2. 作者提出的整体框架:2DMambaMIL

面向 WSI 任务,论文整体流程可以概括为:

第一步:WSI 切块

把超大病理切片切成多个 patch。

第二步:提取 patch 特征

利用预训练的病理特征提取器,对每个 patch 提取表示。

第三步:恢复二维网格

根据 patch 在原图中的位置,把 patch 特征重新放回二维网格中。

第四步:补齐为规则矩形

由于组织区域通常是不规则的,很多位置没有 patch。
作者不是直接用 0 填充,而是引入 learnable non-tissue token 进行补齐。

第五步:送入 2DMamba block

在二维网格上进行 selective state space scanning。

第六步:聚合成 slide-level 表征

最后使用 attention-based aggregator 进行全局聚合,得到分类或生存分析结果。


3. 为什么 learnable non-tissue token 很重要?

这是一个容易被低估的点。

WSI 的有效组织区域通常不是规则矩形,而是很不规则的形状。
为了让模型进行二维运算,往往需要把它补齐成规则网格。

很多人会直接补 0。
但作者认为,固定 0 并不一定是最佳选择。

原因在于:

  • 非组织区域虽然没有病理纹理
  • 但“空白区域的分布方式”本身也可能携带边界和形状信息
  • 可学习 token 可以让模型自己决定怎样表示这些位置

从消融实验看,learnable token 的确优于固定 zero padding。


4. 2DMamba 的核心:二维 selective scan

这是全文最核心的技术点。

传统 Mamba 是一维的,状态更新形式可以简单理解为:

ht=Atht1+Btxth_t = A_t h_{t-1} + B_t x_t

其中:

  • hth_t 表示当前状态
  • xtx_t 表示当前输入
  • At,BtA_t, B_t 由当前输入动态调节

这让模型在每个位置都可以控制:

  • 该保留多少过去信息
  • 该写入多少当前信息

5. 2DMamba 如何扩展到二维?

假设输入是二维网格中的位置 (i,j)(i,j)

作者设计了两步扫描:

(1)横向扫描

在每一行中,从左到右递推:

hi,jhor=Aˉi,jhi,j1hor+Bˉi,jxi,jh_{i,j}^{hor} = \bar{A}_{i,j} h_{i,j-1}^{hor} + \bar{B}_{i,j} x_{i,j}

它表示:

  • 当前位置首先聚合本行左侧的信息
  • 每一行可以独立并行

(2)纵向扫描

然后再在列方向上从上到下递推:

hi,j=Aˉi,jhi1,j+hi,jhorh_{i,j} = \bar{A}_{i,j} h_{i-1,j} + h_{i,j}^{hor}

它表示:

  • 当前点除了利用本行信息外
  • 还继续接收来自上方行的信息

最终输出为:

yi,j=Chi,jy_{i,j} = C h_{i,j}

6. 为什么二维扫描比一维展平更合理?

这一点是论文的理论亮点。

1D 展平的问题

在一维序列里,信息传播的距离由“序列距离”决定。
但序列距离并不等于图像中的空间距离。

一个二维上很近的点,在 flatten 后可能很远。
而状态模型中的信息会随着传播距离增加而逐渐衰减,所以这种错位会损伤局部空间关系。

2D 扫描的优势

作者推导表明,二维扫描后的状态实际上会聚合当前位置左上区域的信息,而衰减强度与:

曼哈顿距离(Manhattan distance)

相关。

这比 flatten 后的序列距离,更符合图像中的真实空间关系。

简单说就是:

二维扫描让模型“忘记信息”的方式,更贴近图像的真实几何结构。


7. 一个很重要的细节:它不是简单换扫描顺序

很多视觉 Mamba 方法会做:

  • 双向扫描
  • 四向扫描
  • Cross scan
  • Raster scan

这些方法虽然有帮助,但本质上仍然是多个一维路径的组合。

而 2DMamba 的关键不同在于:

它直接定义了二维状态传播过程,而不是用多个一维近似去替代二维。

这也是论文消融实验中,2D 方法优于多方向 1D 扫描的根本原因。


五、博士阶段:从复现与研究推进角度拆解整篇论文

1. 论文的研究贡献可以概括为三点

贡献一:提出真正的 2D Mamba 建模方式

不是先 flatten 再 scan,而是在二维网格上直接进行状态空间递推。

贡献二:给出高效的二维 selective scan 实现

不仅有理论公式,还有面向 GPU 的高效 CUDA 设计。

贡献三:完成跨任务验证

既在 WSI 分类、生存分析上验证,也在自然图像分类和分割上验证其有效性。


2. 论文的方法论本质是什么?

我认为可以概括为一句话:

让状态空间模型的信息衰减规律,从“一维序列距离”转向“二维空间距离”。

这是 2DMamba 最本质的研究意义。

因为很多视觉问题,尤其是病理和分割,本质依赖空间连续性。
如果你的建模距离和真实几何关系不一致,那么模型即使很强,也会在 inductive bias 上先天吃亏。


3. 数学层面的关键理解

如果把二维扫描展开,可以发现当前位置 (i,j)(i,j) 的状态,实际上累积了左上区域所有位置的信息贡献。

一个简化理解形式可以写成:

hi,j=iijjAˉ(ii+jj)Bˉxi,jh_{i,j} = \sum_{i' \le i}\sum_{j' \le j} \bar{A}^{(i-i'+j-j')} \bar{B}x_{i',j'}

这个式子的意义非常大:

第一层含义:支持域是左上区域

也就是说,当前位置主要接收来自自己左侧和上方区域的传播信息。

第二层含义:衰减由曼哈顿距离控制

即传播距离等于横向步数加纵向步数。

第三层含义:更符合二维图像几何

比 flatten 后的序列距离更合理。


4. 与 CNN、Transformer 的 inductive bias 有何不同?

CNN

  • 强局部性
  • 平移不变性强
  • 感受野扩展依赖层叠或大卷积核

Transformer

  • 全局建模强
  • pairwise attention 表达力很强
  • 长序列代价高

2DMamba

  • 通过状态递推实现长程依赖
  • 复杂度更友好
  • 比 1D scan 更保留二维结构
  • 但又不像标准注意力那样做全局两两交互

它处在一个很有意思的位置:

既不是纯局部卷积,也不是全连接注意力,而是一种高效的二维递推式全局建模。


5. 工程实现为什么是论文的重要亮点?

很多论文提出了“更合理的结构”,但没有解决“如何高效计算”。

2DMamba 真正有分量的地方在于:

它不只是提出二维扫描的数学形式,还认真解决了 GPU 上如何高效实现的问题。

原因是什么?

因为 selective scan 这类操作往往是 memory-bound 的。
也就是说,性能瓶颈很多时候不是算力,而是显存访问。

如果二维扫描实现不好,就会出现:

  • 大量中间状态写回 HBM
  • 读写开销暴增
  • 显存占用上升
  • 吞吐显著下降

6. 论文中的三种实现思路

(1)原始 1D scan

Mamba 中的一维高效扫描,通常已经被实现得非常成熟。

(2)Naive 2D scan

最直接的方法是:

  • 先按行扫一遍
  • 存中间结果
  • 再按列扫一遍

这个方法逻辑上对,但会产生大量中间状态图,显存和速度都很差。

(3)论文提出的高效 2D scan

作者通过:

  • 2D tiling
  • tile 内局部缓存
  • 尽量在 SRAM / register 中完成计算
  • 避免显式保存所有中间 feature map

来降低内存访问开销。

这个设计非常关键,因为它让 2DMamba 从“理论上可行”变成“工程上能跑”。


7. 论文实验结果该怎么解读?

7.1 WSI 分类

论文在多个病理分类数据集上验证了方法有效性。
整体趋势是:2DMambaMIL 在 AUC、F1、Accuracy 上均优于多种 MIL 与 Mamba 基线。

这说明二维结构建模对 WSI 这类任务确实有实质帮助。


7.2 WSI 生存分析

在生存分析任务上,作者使用 C-index 作为主要指标。
2DMambaMIL 在多个数据集上继续保持领先。

这很有说服力,因为生存分析通常比简单分类更难,对表征质量和全局上下文更敏感。


7.3 自然图像任务

将 2DMamba 接入通用视觉框架后:

  • 在 ImageNet 分类上有小幅提升
  • 在 ADE20K 语义分割上提升更明显

这很合理,因为:

分割任务比分类更依赖细粒度空间关系,因此更能体现二维建模的价值。


8. 消融实验传递了哪些关键信号?

(1)Learnable token 优于 fixed zero

说明非组织区域不是“纯噪声”,它们的形状和边界信息值得被建模。

(2)多方向 1D scan 不如真正 2D scan

说明“多扫几次”并不能完全替代二维状态传播。

(3)高效 CUDA 实现非常必要

Python 实现虽然可以验证算法逻辑,但性能和显存都明显不理想。
如果要做真正训练和部署,CUDA 版本几乎是必须的。


六、从复现角度出发:如何自己实现一个 2DMamba 版本?

下面给出一个实用的复现路线图。

1. 第一阶段:先做最小可行版本(功能正确优先)

目标:先把方法跑通,不追求速度。

你需要实现的模块:

  1. WSI patch 特征读取
  2. patch 坐标恢复为二维网格
  3. 非组织区域 token 补齐
  4. 横向 selective scan
  5. 纵向 selective scan
  6. slide-level aggregator
  7. 分类 / 生存分析头

最容易出错的点:

  • patch 坐标映射是否正确
  • 网格 padding 后 mask 是否对齐
  • 行列扫描前后的张量维度转换
  • selective 参数的广播维度是否正确

2. 第二阶段:尽量对齐论文设置

要想复现接近论文结果,以下因素必须尽可能对齐:

数据层面

  • patch size
  • magnification
  • 组织区域筛选策略
  • 预训练特征提取器

模型层面

  • embedding dimension
  • state dimension
  • block 数量
  • 聚合器结构

训练层面

  • 学习率
  • batch size
  • 随机种子
  • 交叉验证方式
  • 指标计算方式

如果这些不对齐,最后性能偏差可能会非常大。


3. 第三阶段:实现高性能版本

当功能版本验证没问题后,再考虑性能优化。

优先级建议如下:

(1)避免中间状态完全 materialize

不要把所有行扫描中间态都写回显存。

(2)使用 tile 级计算

将局部块作为基本单位,减少跨块访问。

(3)尽量利用更快存储层

包括 SRAM / shared memory / register。

(4)减少不必要的 transpose 和 copy

很多时候速度慢不是算法慢,而是维度变换带来的额外开销。


七、论文的局限与可扩展方向

做论文精读,不能只看优点,也要看不足。

1. 当前二维传播仍然带方向偏置

2DMamba 的信息传播具有一定方向性,比如更偏向“左上到右下”的聚合路径。

这意味着它虽然比 flatten 合理得多,但并不是完全各向同性的二维建模。


2. 对分类任务的增益相对有限

在 ImageNet 分类上提升不算特别大。
说明对“只需要全局类别判断”的任务,二维连续性带来的额外收益可能不如分割、病理分析那样明显。


3. 高效实现门槛较高

理论公式可以在 Python 中实现,但要想达到论文中强调的高效吞吐与显存表现,CUDA 实现难度较高,对工程能力要求不低。


4. 多方向二维状态传播仍有研究空间

后续可以探索:

  • 双向 2D Mamba
  • 四象限 2D 状态传播
  • 多路径融合
  • 结合金字塔多尺度结构
  • 从 2D 扩展到 3D 医学影像建模

这些都很有研究价值。


八、我对这篇论文的总体评价

如果让我用几句话评价这篇论文,我会这样说:

1. 问题切得很准

它抓住了视觉 Mamba 里一个非常关键却长期被忽略的问题:

二维图像不应该一直被当成一维序列处理。

2. 方法不是表面改动,而是实质推进

它不是简单换一个 scan order,而是重新定义了二维状态传播机制。

3. 理论、工程、实验三方面比较完整

  • 有明确的问题动机
  • 有清晰的数学形式
  • 有高效实现支撑
  • 有跨任务实验验证

4. 对病理方向尤其值得关注

对于 WSI 这种天然依赖空间结构的任务,2DMamba 的思想非常契合,具有很强的方法启发性。


九、写给初学者:这篇论文最值得记住的三句话

如果你读完整篇文章后,只想记住最关键的三点,那么请记住下面这三句话:

1. 图像是二维的,先展平再建模会破坏空间关系

这是很多视觉序列模型的共性问题。

2. 2DMamba 的本质是让状态空间模型按二维方式传播信息

它不是多做几次 1D scan,而是直接做二维递推。

3. 对空间敏感任务来说,二维连续性非常重要

尤其是病理、分割、遥感、多尺度医学影像等场景。


十、适合放在博客结尾的思考

从更宏观的视角看,这篇论文其实代表了一个趋势:

未来的高效视觉模型,不只是追求“更快”,还会越来越强调“是否尊重图像本身的几何结构”。

换句话说,真正优秀的方法,不应该只是把图像塞进一个通用序列框架里,而应该尽可能保留图像原本的空间逻辑。

而 2DMamba 恰恰就在做这件事。

它告诉我们:

  • 高效,不一定要牺牲结构
  • 二维,不一定就无法并行
  • 状态空间模型,不一定只能处理一维序列

这也是它最打动人的地方。


总结

本文我们系统拆解了论文 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification,并从三个层次进行了理解:

  • 小白阶段:明白它在解决“二维图像被一维化处理”的问题
  • 硕士阶段:理解其二维 selective scan 的原理、实验表现及工程价值
  • 博士阶段:从复现、理论和后续研究方向出发,理解它为什么值得深入做下去

如果用一句话总结这篇论文,那就是:

2DMamba 的本质,不是简单把 Mamba 用到图像上,而是让 Mamba 真正学会按照二维空间关系理解图像。

对于做计算机视觉、数字病理、医学影像、视觉基础模型的同学来说,这篇论文都非常值得认真读一遍。