NVIDIA’s Global Context ViT Achieves SOTA Performance on CV Tasks Without Expensive Computation

由于Transformer架构在自然语言处理(NLP)中的划时代性能，视觉Transformer(ViT)已经成为计算机视觉(CV)任务中最先进的架构之一，与传统的卷积神经网络(CNN)方法相比，它在短期和长期信息建模方面表现出了出色的能力。限制ViT进一步开发和部署的主要瓶颈是它的平方计算复杂度，这使得训练高分辨率图像的模型非常昂贵。

在一篇新的论文Global Context Vision Transformer中，NVIDIA研究团队提出了Global Context Vision Transformer (GC ViT)，这是一种新颖而简单的层次ViT架构，包括一个全局自注意力和token生成模块，在实现各种计算机视觉(CV)任务的SOTA结果的同时，能够在不需要昂贵的计算操作的情况下对短期和长期依赖进行高效建模。

团队总结他们的主要贡献如下:

GC ViT是一种新型的层次Transformer模型，可用于各种计算机视觉任务，如分类、检测和实例分割的通用骨干。
一种新颖而简单的设计，包括全局自注意力和token生成模块，允许通过捕获全局上下文信息对远程依赖关系进行建模，因此无需高度复杂或复杂的操作。
对于各种模型大小和FLOPs，提出的GC ViT在ImageNet-1K数据集上实现了新的SOTA基准，大大超过了基于CNN和ViT的模型。使用GC ViT作为骨干，在MS COCO和ADE20K数据集上分别得到了SOTA或具有竞争性的物体检测和语义分割性能。

GC ViT体系结构是一个层次结构框架，它以多种分辨率获取特征表示。给定一幅输入图像，该模型通过应用特定的卷积层和适当的填充来获得重叠块。

每个GC ViT处理阶段交替使用局部和全局自注意模块进行空间特征提取。全局自注意力可以获取由一种新型的全局token生成器(GTG)提取的全局特征，得到的特征通过平均池化和线性层传递，为下游任务生成嵌入。

在他们的研究中，团队在CV任务上评估了提出的GC ViT，如图像分类、目标检测、实例分割和语义分割。

在评估中，GC ViT模型在ImageNet-1K数据集上取得了新的SOTA图像分类得分，Top-1准确率为84.4%，并以显著优势持续超越了ConvNeXt和Swin Transformer的基线。GC ViT还在MS COCO和ADE20K数据集上的物体检测和语义分割任务中获得了SOTA或具有竞争性的结果。

总的来说，这项工作证明了所提出的GC ViT能够有效地捕获全局上下文信息，并在CV任务中达到SOTA性能。虽然GC ViT不会增加计算成本，但该论文指出，与任何transformer 架构一样，训练仍然相对昂贵，并建议采用诸如有限精度或量化等技术可以实现更有效的GC ViT训练。

代码：github.com/NVlabs/GCVi…

论文：arxiv.org/abs/2206.09…

英文原文：medium.com/syncedrevie…

NVIDIA全局上下文ViT在CV任务上用小计算量达到SOTA

NVIDIA’s Global Context ViT Achieves SOTA Performance on CV Tasks Without Expensive Computation