本文已参与「新人创作礼」活动，一起开启掘金创作之路。

参考

author

paper

2204.05041.pdf (arxiv.org)

code

github.com/icvteam/pgn…

data

github.com/icvteam/pgn…

Abstract

最近，基于深度神经网络的显著目标检测（SOD）方法取得了显著的效果。

然而，由于采样深度和感受野大小之间的矛盾，大多数为低分辨率输入设计的SOD模型在高分辨率图像上表现不佳。
为了解决这一矛盾，我们提出了一种称为金字塔嫁接网络（PGNet）的单阶段框架，使用transformer和CNN backbone从不同分辨率的图像中独立提取特征，然后将特征从transformer分支嫁接到CNN分支。
提出了一种基于注意的交叉模型嫁接模块（CMGM），使CNN分支能够在解码过程中，在不同信源特征的指导下，更全面地组合破碎的细节信息。此外，我们还设计了一个注意引导丢失（AGL）来明确监督CMGM产生的注意矩阵，以帮助网络更好地与来自不同模型的注意交互。我们提供了一个新的超高分辨率显著性检测数据集UHRSD，包含5920张4K-8K分辨率的图像。据我们所知，它是高分辨率SOD任务在数量和分辨率上最大的数据集，可用于未来研究中的训练和测试。对UHRSD和广泛使用的SOD数据集的充分实验表明，与最先进的方法相比，我们的方法实现了优越的性能

Introduction

显著目标检测 (SOD) 旨在识别、分割和分割特定场景中最具吸引力的对象。作为预处理步骤,广泛应用于各种计算机视觉任务，例如光场分割[21,41]，实例分割[47]和视频对象分割[13,42]。
最近，基于深度神经网络的显著目标检测方法取得了显著的成就[3,9,14,19,26,29]。然而，大多数现有的SOD方法在特定的输入低分辨率范围（例如224×224、384×384）内表现良好。随着图像捕获设备（如智能手机）的快速发展，人们可以访问的图像的分辨率（如1080p、2K和4K）已经远远超出了现有显著性检测方法可以直接适应的范围。如图1（c）所示，我们将高分辨率图像直接输入以Resnet-18为主干的常用网络，并比较地面真实值。图1（b）显示，分割结果不完整，许多细节区域丢失。为了减少计算消耗和内存使用，现有方法通常会对输入图像进行降采样，然后对输出结果进行上采样以恢复原始分辨率，如图1（d）所示。这一挑战是因为大多数低分辨率SOD网络都是以编码器-解码器的方式设计的，随着输入分辨率的急剧增加，提取的特征的大小会增加，但由网络确定的感受野是固定的，使得相对感受野变小，最终导致无法捕获对任务至关重要的全局语义。由于直接处理无法应对高分辨率带来的挑战，近年来出现了一些专门为高分辨率输入设计的methods。有两种具有代表性的高分辨率SOD方法（HRSOD[40]，DHQSOD[30]）。HRSOD将整个过程分为全局阶段、局部阶段和重组阶段，全局阶段为局部阶段和作物过程提供指导。DHQSOD将SOD任务分解为分类任务和回归任务，这两个任务通过他们提出的trimap和不确定性损失连接起来。它们生成具有清晰边界的相对较好的显著性贴图。
然而，上述两种方法都使用多阶段架构，将SOD分为语义（低分辨率）和细节（高分辨率）两个阶段。这导致了两个新问题：（1）不同阶段之间的语境语义转换不一致。在前一阶段获得的中间映射被输入到最后一阶段，同时错误也被传递。此外，由于没有足够的语义支持，最后阶段的细化可能会继承甚至放大之前的错误，这意味着最终的显著性映射严重依赖于低分辨率网络的性能。（2）费时。与单阶段方法相比，多阶段方法不仅难以并行，而且存在参数数量增加的潜在问题，这使得其速度较慢。
基于现有高分辨率方法的上述缺陷，我们提出了一种新的观点， 即由于单个网络中的特定特征不能同时解决感受野和细节保留的矛盾，我们可以分别提取两组不同空间大小的特征，然后将信息从一个分支移植到另一个分支。本文重新考虑了双分支结构，设计了一种用于高分辨率显著性检测的新型单级深度神经网络——金字塔嫁接网络（PGNet）。如图1（e）所示，我们使用Resnet和Transformer作为编码器，并行提取具有双空间大小的特征。跨前分支首先对FPN样式的特征进行解码，然后在两个分支的特征映射具有相似空间大小的阶段将全局语义信息传递给Resnet分支。我们称这一过程为嫁接。最终，Resnet分支使用嫁接的特征完成装饰过程。

就是将swin transformer的全局特征和resnet的局部特征结合

对比分类FPN, 我们以更低的成本构建了更高的特征金字塔。为了更好地跨两种不同类型的模型进行嫁接，我们设计了基于注意机制的跨模型嫁接模块（CMGM），并提出了注意引导丢失来进一步指导嫁接。考虑到有监督的深度学习方法需要大量高质量的数据，我们提供了迄今为止数量最多的4K分辨率SOD数据集（UHRSD），以促进未来的高分辨率显著目标检测研究。
主要贡献总总结： •我们提出了第一个用于高分辨率显著目标检测的单阶段框架PGNet，它使用交错连接来捕获连续的语义和丰富的细节。

•我们引入了交叉模型移植模块，将变压器支路的信息传输到CNN支路，使CNN不仅可以继承全局信息，还可以弥补两者的共同缺陷。

•此外，我们还设计了注意引导丢失，以进一步促进特征嫁接我们提供了一个新的具有挑战性的超高分辨率显著性检测数据集（UHRSD），包含5920张不同场景的图像，分辨率超过4K，以及相应的像素显著性标注，这是目前可用的最大高分辨率显著性数据集。

•在现有数据集和我们的数据集上的实验结果表明，我们的方法在准确性和速度上都优于最先进的方法。

Related work

在过去的几十年里，人们提出了大量传统方法来解决显著性检测问题[12,38,39]。然而，这些方法只关注底层特征，忽略了丰富的语义信息，导致在复杂场景中性能不稳定。更多细节见[1]。

Deep Learning-Based Saliency Detection

最近，由于深度神经网络的应用，显著性检测取得了显著进展[18,33,36,37,44]。Hou等人[11]和Chen等人[4]使用深度卷积网络作为编码器来提取多级特征，并设计各种模块以FPN方式将其融合。Ma等人[23]和Xu等人[37]通过尝试各种特征连接路径，避免语义淡化，同时抑制细节损失。此外，Wei等人[33]通过显式监控边缘像素，生成具有尖锐2边界的显著性贴图。在视觉中过度使用Transformer也带来了显著性检测的新进展。Liu等人[20]利用T2T-vit作为主干，设计了一个具有纯变压器结构的多任务解码器，以执行RGB和RGB-D显著性检测。然而，这些方法是为低分辨率场景设计的，不能直接应用于高分辨率场景。

High-Resolution SOD

如今，关注高分辨率SOD方法已经成为一种趋势。Zeng等人[40]提出了一种高分辨率显著目标检测范式，使用GSN提取语义信息，使用APS引导的LRN优化局部细节，最后使用GLFN预测模糊。他们还贡献了第一个高分辨率显著目标检测数据集（HRSOD）。Tang等人[30]提出，显著目标检测应分为两项任务。他们首先设计LRSCN，以在低分辨率下捕获足够的信号，并生成trimap。通过引入不确定性损失，设计的HRRN可以细化第一阶段使用低分辨率数据集生成的trimap。然而，它们都使用多阶段架构，这导致推理速度较慢，难以满足某些实际应用场景。更严重的问题是网络之间的语义不一致。因此，我们的目标是设计一个单级深度网络来消除上述缺陷。

UHR Saliency Detection Dataset（未翻译）

Methodology

Staggered Grafting Framework

proposed network的架构如图3所示。可以看出，网络由两个编码器和一个解码器组成。为了更好地执行两个编码器各自的任务，选择了Swin transformer和Resnet-18作为编码器。选择这种组合是为了兼顾效率和效果。一方面，transformer编码器能够在低分辨率情况下获得准确的全局语义信息，卷积编码器能够在高分辨率输入下获得丰富的细节。另一方面，不同模型提取的有限元特征的可变性可能是互补的，以便更准确地识别显著性。

PGNet: forward:

r2,r3,r4,r5 = self.resnet(x)  # 返回4个残差layer的x
s1,s2,s3,s4 = self.swin(y)  # 同样返回4个层次的x

r2_, attmap, r5_, s2_ = self.decoder(s1,s2,s3,s4,r2,r3,r4,r5)

在编码过程中，两个编码器被馈送不同分辨率的图像，以便分别并行地捕获全局语义信息和详细信息。解码阶段可分为三个子阶段，首先是SWN解码，然后是嫁接特征去编码，最后是交错结构的Resnet解码。第二个子阶段解码的特征由交叉模型移植模块（CMGM）生成，该模块将全局语义信息从Swin分支移植到Resnet分支。此外，CMGM还处理一个名为CAM的矩阵以进行监控。回顾整个过程，我们使用交错连接结构通过两个较低的pyramid构建了一个较高的特征金字塔，如图1所示。换句话说，该网络以较低的计算成本实现了更深的采样深度，以适应高分辨率输入带来的挑战。

Feature Extractors

针对高分辨率输入产生的大量计算消耗和内存使用，我们选择Resnet-18[10]和Swin-B[22]作为主干，以平衡性能和效率。对于Resnet-18 encoder，将生成五个特征映射，我们将其表示为 $\mathbb{R}$ 。由top 7×7 layer提取的特征图提供的性能增益有限，但会消耗大量计算工作，尤其是对于高分辨率输入。因此， $\mathbb{R}$ 中使用的特征可以表示为 $\left\{\boldsymbol{R}_{i} \mid i=2,3,4,5\right\}$ ，由于每个stage的需要下采样，对于imput size = （H，W）的数据， $\boldsymbol{R}_{i}$ 的size是 $\frac{\dot{H}}{2^{i}} \times \frac{W}{2^{i}} \times\left(C \times 2^{i-1}\right)$ ，其中 $C \times 2^{i-1}$ 是特征通道。我们删除了最后一个阶段，同时采用了Swin-transformer的patch embedding feature，swin_transformer生成了4个特征，表示为 $\left\{\boldsymbol{S}_{i} \mid i=1,2,3,4\right\}$ 。Due to the nature that the embedding dim is fixed in transformer, the input size is 224 × 224 and the feature size in $\boldsymbol{S}$ is $\left\{\frac{56}{2^{i-1}} \times \frac{56}{2^{i-1}} \times\left(64 \times 2^{i}\right)\right\}$ ， for i = 1, 2, 3 and 14×14×512 for $\boldsymbol{S}_{4}$ 。 $\boldsymbol{R}_{5}$ 特征的空间大小（w, h）和 $\boldsymbol{S}_{2}$ 相近，因此，我们选择在这里移植这些功能。

Cross-Model Grafting Module (CMGM)

我们提出了交叉模型移植模块（CMGM）来移植由两个不同的编码器提取的特征 $f_{R_{5}}$ 和 $f_{S_{2}}$ 。对于特征 $f_{S_{2}}$ ，由于transformers能够远距离捕获信息，因此它具有全局语义信息，这对显著性检测非常重要。相比之下，CNN在提取局部信息方面表现良好，因此 $f_{R_{5}}$ 具有相对丰富的细节。然而，由于特征尺寸和感受野之间的矛盾， $f_{R_{5}}$ 中的背景会有很多噪声。对于某一区域的显著预测，由不同特征生成的预测可以大致概括为三种情况：（a）都对，（b）其中一些是对的，（c）都错的。现有的基于元素操作的融合方法，如加法和乘法，可能适用于前两种情况。然而，基于元素的运算和卷积运算只关注有限的局部信息，由此产生的融合方法很难消除常见错误。与特征融合相比，CMGM重新计算Resnet特征和Transformer特征之间的逐点关系，将全局语义信息从Transformer分支传递到Resnet分支，以弥补常见错误。我们用E=|G− P|∈ [0,1]计算误差图，其中G是ground truth，P是由不同分支或CMGM生成的显著预测图。如图4所示，CMGM按照预期纠正了常见错误。
具体来说，在CMGM中，它首先变平, the $f_{R_{5}}$ 从∈ $v^{H \times W \times C}$ 变为了 $f^,_{R_{5}}$ ∈ $v^{1 \times C \times HW}$ 。对 $f_{S_{2}}$ 做同样的操作得到 $f^,_{S_{2}}$ 。受multi-head self-attention机制的启发，我们分别对其应用层layer normalization and linear projection层得到 $f^q_{R}$ , $f^v_{R}$ , $f^k_{S}$ 。我们通过矩阵乘法得到 $\boldsymbol{Z}$ ，这种处理可以描述为： $\boldsymbol{Y}=softmax(f^q_{R} \times (f^k_{S})^T)$

$\boldsymbol{Z}=\boldsymbol{Y} \times f^v_{R}$

然后我们将 $\boldsymbol{Z}$ 输入到linear projection layer，并在进行卷积层之前改变其size为： $v^{H \times W \times C}$ 。如图5所示，在该过程中执行了两个截近分支。此外，在交叉注意过程中，我们基于 $\boldsymbol{Y}$ 生成交叉注意矩阵，可以表示为： CAM = ReLU(BN(Conv(Y + Y T))), CAM的详细用法详见Attention Guided Loss

Attention Guided Loss

为了使CMGM更好地将信息从transformer支路传输到Renset支路的目的，我们设计了注意引导损失来明确地监督交叉注意矩阵。我们认为交叉注意矩阵应该与根据基本事实生成的注意矩阵相似，因为显著特征应该具有更高的相似性，换句话说，点积应该具有更大的激活值。如图6所示，给定大小为H×W的显著map $\boldsymbol{M}$ ，我们首先将其展平为大小为1×HW的 $\boldsymbol{M}^，$ 。然后我们在 $\boldsymbol{M}^，$ 上应用矩阵乘法得到相应的注意矩阵 $\boldsymbol{M}^a$ 。该过程可以表示为 $\boldsymbol{M}^a$ = $\boldsymbol{F}(M)$ , $\boldsymbol{M}^a_{xy}$ 的值可以表示为 $\boldsymbol{M}^a_{xy}$ = $(\boldsymbol{M}^,)^T_{x} \times \boldsymbol{M}^,_{y}$
接下来我们使用transformation $\boldsymbol{F}(.)$ 继续构建了 $\boldsymbol{G}^a$ , $\boldsymbol{RP}^a$ , $\boldsymbol{SP}^a$ , $\boldsymbol{G}$ 是ground truth map， $\boldsymbol{RP}$ 和 $\boldsymbol{SP}$ 分别是由特征 $\boldsymbol{R}^5$ 和 $\boldsymbol{S}^2$ 生成的显著特征图。我们提出了基于加权二元交叉熵（wBCE）的注意引导损失来监控由图5所示的CMGM生成的交叉注意矩阵CAM。BCE[6]可以写成：

$\boldsymbol{G}_{xy}$ 是ground truth label of the pixel (x, y)， $\boldsymbol{P}_{xy}$ 是预测特征上预测的label。两者的范围都在[0, 1]内。那么 $\boldsymbol{L}_{AG}$ 可以表达为：

式中，β是一个超参数，用于调整权重ω等式（7）的影响。在等式（6）中，每个像素上的被赋予权重βωij。使用权重ω有两个目的：（1）由于矩阵乘法，正样本和负样本的平衡度是平方的。（2）如第Cross-Model Grafting Module 章节，我们希望纠正这两个分支的常见错误。当βω等于0时，等式（6）变成通常的二元交叉熵损失Lbce。权重ω可通过以下公式计算：

Pyramid Grafting Network for One-Stage High Resolution Saliency Detection（论文）

参考