2DMamba 精读：从小白到博士，彻底拆解 2DMamba 让 Mamba 不再只会按一维序列思考，而是真正学会按二维图像结构思考

论文标题：2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
论文链接：2DMamba
文章定位：论文深度精读 / 2DMamba核心技术拆解 / Mamba二维化突破解析 / 计算机视觉（CV）技术落地导向，打破技术壁垒，用分层视角拆解2DMamba如何让Mamba适配二维图像结构，兼顾理论深度与实操参考。
适合人群：AI入门者、计算机相关专业本科生（零基础可读懂）；CV/图形学、状态空间模型（SSM）方向研究生（夯实理论、拓展研究视角）；准备复现论文、开展相关算法优化、探索千兆像素图像分类落地的博士生与工程技术研究人员（聚焦实操与创新点）

一句提示词帮你速通论文

提示词

你现在是一位计算机视觉的博士，请你仔细阅读这篇论文，并将其拆解为小白阶段、硕士阶段、博士阶段。一定要引人入胜，客观具体，且极为详细。小白阶段你需要达到是个傻子都能懂的情况，在硕士阶段你需要达到正常使用一些专业数据，帮助小白从傻子到小专家的突破，在博士阶段你需要仔细拆解整篇论文，把各项细节全部记录，方便后期进行复现，同时促使小专家成为资深大拿

镜像地址，ChatGTP 最新模型助您深入解析、速通论文

邀请码地址，ChatGTP 最新模型助您深入解析、速通论文

前言

在计算机视觉尤其是数字病理领域，如何高效建模超大分辨率图像，一直是一个非常有挑战的问题。传统 Transformer 虽然建模能力强，但在超长序列场景下计算开销巨大；而近年来兴起的 Mamba / State Space Model（状态空间模型）路线，则提供了一种更高效的长序列建模思路。

但问题在于：图像天然是二维结构，而大多数视觉 Mamba 方法依然会先把图像展平成一维序列再处理。 这一步虽然方便，但会破坏原本重要的空间邻接关系。对于 Whole Slide Image（WSI，全切片病理图像）这种极度依赖空间结构的任务来说，这个问题尤其严重。

本文我们就来系统拆解一篇非常有代表性的论文：

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

这篇论文的价值，不只是“提出了一个新模块”这么简单，而是它试图回答一个非常本质的问题：

能不能让 Mamba 不再只会按一维序列思考，而是真正学会按二维图像结构思考？

为了方便不同基础的读者阅读，本文将从三个层次展开：

小白阶段：用最通俗的话讲清楚这篇论文到底在解决什么问题
硕士阶段：引入必要的专业术语、实验设计和核心结论，帮助建立研究理解
博士阶段：按复现和进一步研究的标准，对整篇论文做系统拆解，方便后续深入实现和扩展

一、论文信息速览

1. 论文标题

2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification

2. 论文核心任务

这篇论文主要关注两个层面的任务：

面向数字病理的超大图像建模
- Whole Slide Image（WSI）分类
- WSI 生存分析
面向通用视觉任务的二维表示学习
- ImageNet-1K 图像分类
- ADE20K 语义分割

3. 论文的核心思想

一句话总结：

不要再把二维图像粗暴拉平成一维序列，而是直接在二维网格上做状态空间建模。

这就是 2DMamba 的本质。

二、小白阶段：把这篇论文讲到“零基础也能看懂”

1. 这篇论文到底想解决什么问题？

你可以把它想象成这样一个场景：

你有一张特别特别大的地图，地图上有很多建筑物、街道、河流。
现在你要判断这张地图属于哪种城市类型。

最简单的方法是把地图切成很多小块，然后一块一块看。
但这么做会有一个大问题：

你知道每一块长什么样，却不知道这些块彼此在地图上的上下左右关系。

这正是 Whole Slide Image（全切片病理图像）面临的典型问题。

一张病理切片特别大，可能高达十万乘十万像素，根本不可能直接送进模型。所以常见做法是：

先把整张大图切成很多 patch
每个 patch 提取一个特征
再把这些 patch 特征交给模型做最终判断

问题来了：

如果这些 patch 被当成“一个袋子”看待，那么空间关系就没了
如果这些 patch 被排成“一条序列”来处理，那么原本二维空间中的邻近关系就会被扭曲

而这篇论文，就是要解决这个问题。

2. 为什么“把图像拉平成一维”会出问题？

图像天生是二维的。

比如下面这种关系非常重要：

一个细胞挨着哪种细胞
某个肿瘤区域的边界如何变化
某个组织模式在空间上如何延展

这些都不是单点信息，而是空间关系信息。

但如果你把二维 patch 网格拉平成一维序列，就会出现一种很尴尬的情况：

本来在图像里上下相邻的两个 patch
在一维序列里可能被隔得很远

这就好比：

你看一本书，正常是按段落顺序看；
但有人把每页剪成方块，再打乱成一条长纸带让你读。

你当然还是能读，但很多本来相邻的内容被隔开了，上下文理解会变差。

这篇论文把这个问题称为：

空间失真 / 空间错位（spatial discrepancy）

3. 作者提出的解决思路是什么？

既然图像是二维的，那就直接按二维方式处理。

别先拉成一条线，再让模型“脑补”它是图像。
而是：

先按行进行扫描
再按列进行扫描
让信息在二维网格里传播

这样一来，模型学习到的关系就更接近图像本来的空间结构。

这就是 2DMamba。

4. 为什么这件事在病理图像里尤其重要？

因为病理图像和普通自然图像很不一样。

病理图像有三个典型特点：

（1）超大

Whole Slide Image 往往是 Giga-pixel 级别，也就是十亿像素级别。

（2）不能直接整图输入

必须切成许多 patch，再做后续处理。

（3）高度依赖空间结构

癌细胞和正常组织的排列方式、浸润模式、边界形态，往往比单个局部纹理更重要。

所以如果你丢掉二维空间关系，模型就容易“只看局部，不看结构”。

而 2DMamba 的价值就在于：

它不是只记住有哪些 patch，而是尽可能保留 patch 之间原有的二维空间联系。

5. 这篇论文最终做到了什么？

论文实验表明，2DMamba 在多个任务上都有不错收益。

在病理 WSI 分类与生存分析上：

分类任务中，AUC、F1、Accuracy 都取得提升
生存分析中，C-index 也明显优于多种基线方法

在自然图像任务上：

ImageNet 分类有小幅提升
ADE20K 语义分割提升更明显

这说明它并不是只对病理有效，而是一个具备一定通用性的二维建模思想。

三、基础铺垫：读懂 2DMamba 之前必须知道的几个概念

1. 什么是 WSI？

WSI 是 Whole Slide Image，也就是全切片数字病理图像。

现实中的病理切片会被扫描成超高分辨率图像，用于辅助诊断、分型、预后分析等任务。

WSI 的难点在于：

分辨率极高
有效组织区域不规则
背景区域多
任务往往依赖多尺度与空间结构

2. 什么是 MIL？

MIL 是 Multiple Instance Learning，多实例学习。

在 WSI 里，一张大切片通常被切成很多 patch。
一整张切片有一个标签，但单个 patch 通常没有标签。

所以模型要做的是：

输入：很多 patch 特征组成的一个 bag
输出：这个 bag 对应的 slide-level 结果

这是 WSI 分析里最经典的设定之一。

3. 什么是 Mamba？

Mamba 可以理解为：

一种高效的长序列建模模型，它基于状态空间模型（SSM）发展而来。

相比 Transformer，Mamba 的一个很大优势是：

在长序列上计算复杂度更友好
内存和吞吐表现更适合超长输入

所以它近年来在视觉、语言等方向都很火。

但它最初本质上还是为一维序列设计的。

4. 什么是状态空间模型（SSM）？

如果用最通俗的话来解释：

状态空间模型会维护一个“内部记忆状态”，当前时刻的输出由两部分决定：

之前记住了什么
当前新输入了什么

你可以把它理解成一个“会持续更新记忆的系统”。

在序列建模中，SSM 非常适合处理长上下文，因为它不是每次都做全局两两比较，而是通过状态递推来传递信息。

四、硕士阶段：进入论文的专业理解

1. 论文的问题定义非常精准

这篇论文并不是泛泛地说“我们提出了一个更好的网络”。

它的真正问题定义是：

如何在保持 Mamba 线性复杂度和高效性的前提下，让它适配二维图像表示学习？

过去一些视觉 Mamba 工作虽然也在处理图像，但很多方法仍然会：

先把图像 patch 展平成一维序列
再使用 1D selective scan 进行建模

作者认为，这种设计始终没有跳出一维建模框架。

问题的核心矛盾是：

1D Mamba 很高效，但不天然适合二维图像
真正 2D 的状态空间建模更合理，但实现上更难、更慢

2DMamba 的目标，就是在这两者之间找到平衡点。

2. 作者提出的整体框架：2DMambaMIL

面向 WSI 任务，论文整体流程可以概括为：

第一步：WSI 切块

把超大病理切片切成多个 patch。

第二步：提取 patch 特征

利用预训练的病理特征提取器，对每个 patch 提取表示。

第三步：恢复二维网格

根据 patch 在原图中的位置，把 patch 特征重新放回二维网格中。

第四步：补齐为规则矩形

由于组织区域通常是不规则的，很多位置没有 patch。
作者不是直接用 0 填充，而是引入 learnable non-tissue token 进行补齐。

第五步：送入 2DMamba block

在二维网格上进行 selective state space scanning。

第六步：聚合成 slide-level 表征

最后使用 attention-based aggregator 进行全局聚合，得到分类或生存分析结果。

3. 为什么 learnable non-tissue token 很重要？

这是一个容易被低估的点。

WSI 的有效组织区域通常不是规则矩形，而是很不规则的形状。
为了让模型进行二维运算，往往需要把它补齐成规则网格。

很多人会直接补 0。
但作者认为，固定 0 并不一定是最佳选择。

原因在于：

非组织区域虽然没有病理纹理
但“空白区域的分布方式”本身也可能携带边界和形状信息
可学习 token 可以让模型自己决定怎样表示这些位置

从消融实验看，learnable token 的确优于固定 zero padding。

4. 2DMamba 的核心：二维 selective scan

这是全文最核心的技术点。

传统 Mamba 是一维的，状态更新形式可以简单理解为：

h_t = A_t h_{t-1} + B_t x_t

其中：

$h_t$ 表示当前状态
$x_t$ 表示当前输入
$A_t, B_t$ 由当前输入动态调节

这让模型在每个位置都可以控制：

该保留多少过去信息
该写入多少当前信息

5. 2DMamba 如何扩展到二维？

假设输入是二维网格中的位置 $(i,j)$ 。

作者设计了两步扫描：

（1）横向扫描

在每一行中，从左到右递推：

h_{i,j}^{hor} = \bar{A}_{i,j} h_{i,j-1}^{hor} + \bar{B}_{i,j} x_{i,j}

它表示：

当前位置首先聚合本行左侧的信息
每一行可以独立并行

（2）纵向扫描

然后再在列方向上从上到下递推：

h_{i,j} = \bar{A}_{i,j} h_{i-1,j} + h_{i,j}^{hor}

它表示：

当前点除了利用本行信息外
还继续接收来自上方行的信息

最终输出为：

y_{i,j} = C h_{i,j}

6. 为什么二维扫描比一维展平更合理？

这一点是论文的理论亮点。

1D 展平的问题

在一维序列里，信息传播的距离由“序列距离”决定。
但序列距离并不等于图像中的空间距离。

一个二维上很近的点，在 flatten 后可能很远。
而状态模型中的信息会随着传播距离增加而逐渐衰减，所以这种错位会损伤局部空间关系。

2D 扫描的优势

作者推导表明，二维扫描后的状态实际上会聚合当前位置左上区域的信息，而衰减强度与：

曼哈顿距离（Manhattan distance）

7. 一个很重要的细节：它不是简单换扫描顺序

很多视觉 Mamba 方法会做：

双向扫描
四向扫描
Cross scan
Raster scan

这些方法虽然有帮助，但本质上仍然是多个一维路径的组合。

而 2DMamba 的关键不同在于：

它直接定义了二维状态传播过程，而不是用多个一维近似去替代二维。

这也是论文消融实验中，2D 方法优于多方向 1D 扫描的根本原因。

五、博士阶段：从复现与研究推进角度拆解整篇论文

1. 论文的研究贡献可以概括为三点

贡献一：提出真正的 2D Mamba 建模方式

不是先 flatten 再 scan，而是在二维网格上直接进行状态空间递推。

贡献二：给出高效的二维 selective scan 实现

不仅有理论公式，还有面向 GPU 的高效 CUDA 设计。

贡献三：完成跨任务验证

既在 WSI 分类、生存分析上验证，也在自然图像分类和分割上验证其有效性。

2. 论文的方法论本质是什么？

我认为可以概括为一句话：

让状态空间模型的信息衰减规律，从“一维序列距离”转向“二维空间距离”。

这是 2DMamba 最本质的研究意义。

因为很多视觉问题，尤其是病理和分割，本质依赖空间连续性。
如果你的建模距离和真实几何关系不一致，那么模型即使很强，也会在 inductive bias 上先天吃亏。

3. 数学层面的关键理解

如果把二维扫描展开，可以发现当前位置 $(i,j)$ 的状态，实际上累积了左上区域所有位置的信息贡献。

一个简化理解形式可以写成：

h_{i,j} = \sum_{i' \le i}\sum_{j' \le j} \bar{A}^{(i-i'+j-j')} \bar{B}x_{i',j'}

这个式子的意义非常大：

第一层含义：支持域是左上区域

也就是说，当前位置主要接收来自自己左侧和上方区域的传播信息。

第二层含义：衰减由曼哈顿距离控制

即传播距离等于横向步数加纵向步数。

第三层含义：更符合二维图像几何

比 flatten 后的序列距离更合理。

4. 与 CNN、Transformer 的 inductive bias 有何不同？

CNN

强局部性
平移不变性强
感受野扩展依赖层叠或大卷积核

Transformer

全局建模强
pairwise attention 表达力很强
长序列代价高

2DMamba

通过状态递推实现长程依赖
复杂度更友好
比 1D scan 更保留二维结构
但又不像标准注意力那样做全局两两交互

它处在一个很有意思的位置：

既不是纯局部卷积，也不是全连接注意力，而是一种高效的二维递推式全局建模。

5. 工程实现为什么是论文的重要亮点？

很多论文提出了“更合理的结构”，但没有解决“如何高效计算”。

2DMamba 真正有分量的地方在于：

它不只是提出二维扫描的数学形式，还认真解决了 GPU 上如何高效实现的问题。

原因是什么？

因为 selective scan 这类操作往往是 memory-bound 的。
也就是说，性能瓶颈很多时候不是算力，而是显存访问。

如果二维扫描实现不好，就会出现：

大量中间状态写回 HBM
读写开销暴增
显存占用上升
吞吐显著下降

6. 论文中的三种实现思路

（1）原始 1D scan

Mamba 中的一维高效扫描，通常已经被实现得非常成熟。

（2）Naive 2D scan

最直接的方法是：

先按行扫一遍
存中间结果
再按列扫一遍

这个方法逻辑上对，但会产生大量中间状态图，显存和速度都很差。

（3）论文提出的高效 2D scan

作者通过：

2D tiling
tile 内局部缓存
尽量在 SRAM / register 中完成计算
避免显式保存所有中间 feature map

来降低内存访问开销。

这个设计非常关键，因为它让 2DMamba 从“理论上可行”变成“工程上能跑”。

7. 论文实验结果该怎么解读？

7.1 WSI 分类

论文在多个病理分类数据集上验证了方法有效性。
整体趋势是：2DMambaMIL 在 AUC、F1、Accuracy 上均优于多种 MIL 与 Mamba 基线。

这说明二维结构建模对 WSI 这类任务确实有实质帮助。

7.2 WSI 生存分析

在生存分析任务上，作者使用 C-index 作为主要指标。
2DMambaMIL 在多个数据集上继续保持领先。

这很有说服力，因为生存分析通常比简单分类更难，对表征质量和全局上下文更敏感。

7.3 自然图像任务

将 2DMamba 接入通用视觉框架后：

在 ImageNet 分类上有小幅提升
在 ADE20K 语义分割上提升更明显

这很合理，因为：

分割任务比分类更依赖细粒度空间关系，因此更能体现二维建模的价值。

8. 消融实验传递了哪些关键信号？

（1）Learnable token 优于 fixed zero

说明非组织区域不是“纯噪声”，它们的形状和边界信息值得被建模。

（2）多方向 1D scan 不如真正 2D scan

说明“多扫几次”并不能完全替代二维状态传播。

（3）高效 CUDA 实现非常必要

Python 实现虽然可以验证算法逻辑，但性能和显存都明显不理想。
如果要做真正训练和部署，CUDA 版本几乎是必须的。

六、从复现角度出发：如何自己实现一个 2DMamba 版本？

下面给出一个实用的复现路线图。

1. 第一阶段：先做最小可行版本（功能正确优先）

目标：先把方法跑通，不追求速度。

你需要实现的模块：

WSI patch 特征读取
patch 坐标恢复为二维网格
非组织区域 token 补齐
横向 selective scan
纵向 selective scan
slide-level aggregator
分类 / 生存分析头

最容易出错的点：

patch 坐标映射是否正确
网格 padding 后 mask 是否对齐
行列扫描前后的张量维度转换
selective 参数的广播维度是否正确

2. 第二阶段：尽量对齐论文设置

要想复现接近论文结果，以下因素必须尽可能对齐：

数据层面

patch size
magnification
组织区域筛选策略
预训练特征提取器

模型层面

embedding dimension
state dimension
block 数量
聚合器结构

训练层面

学习率
batch size
随机种子
交叉验证方式
指标计算方式

如果这些不对齐，最后性能偏差可能会非常大。

3. 第三阶段：实现高性能版本

当功能版本验证没问题后，再考虑性能优化。

优先级建议如下：

（1）避免中间状态完全 materialize

不要把所有行扫描中间态都写回显存。

（2）使用 tile 级计算

将局部块作为基本单位，减少跨块访问。

（3）尽量利用更快存储层

包括 SRAM / shared memory / register。

（4）减少不必要的 transpose 和 copy

很多时候速度慢不是算法慢，而是维度变换带来的额外开销。

七、论文的局限与可扩展方向

做论文精读，不能只看优点，也要看不足。

1. 当前二维传播仍然带方向偏置

2DMamba 的信息传播具有一定方向性，比如更偏向“左上到右下”的聚合路径。

这意味着它虽然比 flatten 合理得多，但并不是完全各向同性的二维建模。

2. 对分类任务的增益相对有限

在 ImageNet 分类上提升不算特别大。
说明对“只需要全局类别判断”的任务，二维连续性带来的额外收益可能不如分割、病理分析那样明显。

3. 高效实现门槛较高

理论公式可以在 Python 中实现，但要想达到论文中强调的高效吞吐与显存表现，CUDA 实现难度较高，对工程能力要求不低。

4. 多方向二维状态传播仍有研究空间

后续可以探索：

双向 2D Mamba
四象限 2D 状态传播
多路径融合
结合金字塔多尺度结构
从 2D 扩展到 3D 医学影像建模

这些都很有研究价值。

八、我对这篇论文的总体评价

如果让我用几句话评价这篇论文，我会这样说：

1. 问题切得很准

它抓住了视觉 Mamba 里一个非常关键却长期被忽略的问题：

二维图像不应该一直被当成一维序列处理。

2. 方法不是表面改动，而是实质推进

它不是简单换一个 scan order，而是重新定义了二维状态传播机制。

3. 理论、工程、实验三方面比较完整

有明确的问题动机
有清晰的数学形式
有高效实现支撑
有跨任务实验验证

4. 对病理方向尤其值得关注

对于 WSI 这种天然依赖空间结构的任务，2DMamba 的思想非常契合，具有很强的方法启发性。

九、写给初学者：这篇论文最值得记住的三句话

如果你读完整篇文章后，只想记住最关键的三点，那么请记住下面这三句话：

1. 图像是二维的，先展平再建模会破坏空间关系

这是很多视觉序列模型的共性问题。

2. 2DMamba 的本质是让状态空间模型按二维方式传播信息

它不是多做几次 1D scan，而是直接做二维递推。

3. 对空间敏感任务来说，二维连续性非常重要

尤其是病理、分割、遥感、多尺度医学影像等场景。

十、适合放在博客结尾的思考

从更宏观的视角看，这篇论文其实代表了一个趋势：

未来的高效视觉模型，不只是追求“更快”，还会越来越强调“是否尊重图像本身的几何结构”。

换句话说，真正优秀的方法，不应该只是把图像塞进一个通用序列框架里，而应该尽可能保留图像原本的空间逻辑。

而 2DMamba 恰恰就在做这件事。

它告诉我们：

高效，不一定要牺牲结构
二维，不一定就无法并行
状态空间模型，不一定只能处理一维序列

这也是它最打动人的地方。

总结

本文我们系统拆解了论文 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification，并从三个层次进行了理解：

小白阶段：明白它在解决“二维图像被一维化处理”的问题
硕士阶段：理解其二维 selective scan 的原理、实验表现及工程价值
博士阶段：从复现、理论和后续研究方向出发，理解它为什么值得深入做下去

如果用一句话总结这篇论文，那就是：

2DMamba 的本质，不是简单把 Mamba 用到图像上，而是让 Mamba 真正学会按照二维空间关系理解图像。

对于做计算机视觉、数字病理、医学影像、视觉基础模型的同学来说，这篇论文都非常值得认真读一遍。