一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第28天,点击查看活动详情。
Transformer 骨干网络, ViT 是第一个向大家证明了一个纯 Transformer 可以在图像分类任务拿到 SOTA 的成绩,ViT 将每一张图像看做 tokens 序列,然后将序列化的 token 喂给多层 Transformer 来进行分类。随后 DeiT 数据效率策略
不仅限于分类,PVT 是一个将金字塔结构引入到 Transformer,对于密集任务,相比于 CNN 结构,完全基于 Transformer 主干网络。此后,像 Swin,CvT、CoaT,LeViT 和 Twins 这样强化特征的局部连续性,移除了位置嵌入向量来提升 Transformer 在预测任务的性能。
DETR 是首次使用 Transformers 来构建了一个端到端,没有使用NMS目标检测网络结构。其他许多工作也使用,例如跟踪、超分辨率、行人重定位和,多模态学习。对于语义分割 SETR 吸收了 ViT 作为骨干网络来提取特征,得到意想不到好的效果,然而基于 Transformer 的方法效率非常低,因此很难达到实时效果。
这个章节介绍 SegFormer 在没有任何人工参与,而且没有付出高额的计算代价前提下,是一个高效、鲁棒性和语义分割网络架构。 (1) 结构化 Transformer 编码器用于生成高分辨率的粗略的特征和低分辨率的精细的特征 (2) 轻量级所有多层感知机编码器来将多层结构特征来产出最终语义分割 mask
对于给定分辨率为 HxWx3 首先我们来将 4x4 分辨率的小块,相比于使用 16x16 分辨率 patch 的 ViT,使用比较精细的 patch 更适合与语义分割,接下来,我们使用这些 patch 做输入,输入到层级的 Transformer 编码器来获得多层次的特征,这些特征具有不同分辨率分别为 原始图像 1/4、1/8、1/16 和 1、2 我们然后将这些多层次特征输入到全部由 MLP 组成的解码器来做语义分割 mask,其大小为 H/4 x W/4 x Ncls 分辨率,其中 Ncls 表示类别的数量,在随后内容,我们将首先细化候选框编码器和解码器设计,然后主要对比于 SETR 来总结一下他们两者之间差异.
我们设计了一系列混合 Transformer 编码器(MiT),MiT-B0 到 MiT-B5,结构相同但尺寸不同。MiT-B0 是我们的轻量级建议,用于快速推理,而 MiT-B5 是最大的模型,以达到最佳性能。的 MiT 设计受到 ViT 的启发,所以 MiT 是为语义分割量身定做。
结构化特征表示,与 ViT 仅支持单一分辨率特征图不同,MiT 模块目标在于对给定输入图像产生类似 CNN 的多层次,多尺度的特征。提出多尺度特征既包括高分辨率的粗精度特征也包括低分辨率精细的特征,不同尺度特征提升语义分割的性能。更加精确低
并且 比 大