ICCV2021 | 重新思考视觉transformers的空间维度论文：Rethinking Spatial Dim

论文：Rethinking Spatial Dimensions of Vision Transformers

获取：在CV技术指南后台回复“0006”

**点个关注，**专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读。

前言：

由于基于transformers的架构在计算机视觉建模方面具有创新性，因此对有效架构的设计约定的研究还较少。从 CNN 的成功设计原则出发，我们研究了空间维度转换的作用及其对基于transformers的架构的有效性。

我们特别关注CNNs的降维原理；随着深度的增加，传统的 CNN 会增加通道维度并减少空间维度。我们凭经验表明，这种空间降维也有利于transformers架构，并在原始 ViT 模型上提出了一种新型的基于池化的视觉transformers (Pooling-based Vision Transformer--PiT)。

我们表明 PiT 实现了针对 ViT 的改进模型能力和泛化性能。在广泛的实验中，我们进一步表明 PiT 在图像分类、目标检测和鲁棒性评估等多项任务上优于baseline。

出发点

1. CNN 限制了空间交互，ViT 允许图像中的所有位置通过transformers层交互。

2. 虽然ViT 是一种创新架构，并且已经证明了其强大的图像识别能力，但它沿用了NLP中的 Transformer 架构，没有任何变化。

3. CNN 的一些基本设计原则在过去十年中已被证明在计算机视觉领域有效，但并未得到充分反映。

因此，我们重新审视了 CNN 架构的设计原则，并研究了它们在应用于 ViT 架构时的功效。

创新思路

CNN 以大空间尺寸和小通道尺寸的特征开始，并逐渐增加通道尺寸，同时减小空间尺寸。由于称为空间池化的层，这种维度转换是必不可少的。现代 CNN 架构，包括 AlexNet、ResNet和 EfficientNet，都遵循这一设计原则。

池化层与每一层的感受野大小密切相关。一些研究表明，池化层有助于网络的表现力和泛化性能。然而，与 CNN 不同的是，ViT 不使用池化层，而是在所有层中使用相同大小的空间。

首先，我们验证了 CNN 上池化层的优势。我们的实验表明，池化层证明了 ResNet 的模型能力和泛化性能。为了将池化层的优势扩展到 ViT，我们提出了一种基于池化的视觉transformers (PiT)。

PiT 是一种与池化层相结合的转换器架构。它可以像在 ResNet 中一样减少 ViT 结构中的空间大小。我们还研究了 PiT 与 ViT 相比的优势，并确认池化层也提高了 ViT 的性能。

最后，为了分析 ViT 中池化层的效果，我们测量了 ViT 的空间交互比，类似于卷积架构的感受野大小。我们展示了池化层具有控制自注意力层中发生的空间交互大小的作用，这类似于卷积架构的感受野控制。

Methods

网络架构维度配置的示意图

我们将 ResNet50 、Vision Transformer (ViT) 和基于池化的 Vision Transformer (PiT) 可视化；(a) ResNet50 从输入到输出逐渐下采样特征；(b) ViT 不使用池化层，因此所有层都保持特征维度；(c) PiT 涉及将层汇集到 ViT 中。