arxiv论文整理20221022-1028（目标检测方向）ConfMix: Unsupervised Domain A

ConfMix: Unsupervised Domain Adaptation for Object Detection via Confidence-based Mixing（WACV 2023）

摘要：用于目标检测的无监督领域适应（UDA）旨在适应在源域上训练的模型，以检测没有注释的新目标域中的实例。与传统方法不同，我们提出了ConfMix，这是第一个引入基于区域级检测置信度的样本混合策略的方法，用于自适应目标检测器的学习。我们将目标样本的局部区域与源图像中最有信心的伪探测对应起来，并应用一个额外的一致性损失项来逐渐适应目标数据的分布。为了稳健地定义一个区域的置信度分数，我们利用了每个伪检测的置信度分数，该分数同时考虑了与检测器相关的置信度和边界框的不确定性。此外，我们还提出了一个新的伪标签方案，该方案使用置信度指标对伪目标检测进行逐步过滤，置信度指标在训练过程中从松散到严格的方式变化。我们在三个数据集上进行了广泛的实验，在其中两个数据集上取得了最先进的性能，在另一个数据集上则接近于监督目标模型的性能。代码见：github.com/giuliomatto…

点评：无监督自适应目标检测中，引入基于区域级检测置信度的样本混合策略的方法。代码已开源。

XC: Exploring Quantitative Use Cases for Explanations in 3D Object Detection（XAI4Debugging@NeurIPS2021）

摘要：可解释的人工智能（XAI）方法经常被用来获得关于深度模型预测的定性见解。然而，这种洞察力需要由人类观察者来解释才有用。在本文中，我们的目标是直接使用解释，在没有人类观察者的情况下做出决定。我们采用了两种基于梯度的解释方法，即综合梯度（IG）和反推法，用于三维目标检测任务。然后，我们提出了一套量化措施，名为解释集中度（XC）分数，可用于下游任务。这些分数量化了检测目标边界内的归因集中度。我们通过区分KITTI和Waymo数据集中检测到的真阳性（TP）和假阳性（FP）物体的任务来评估XC分数的有效性。结果表明，与其他启发式方法（如随机猜测和边界框内的LiDAR点的数量）相比，这两个数据集的改进超过了100％，提高了对XC在更多用例中应用潜力的信心。我们的结果还表明，与较简单的方法相比，计算昂贵的XAI方法（如IG）在定量使用时可能没有更大的价值。

点评：之前的可解释AI都有人工的参与，作者的目标是直接给出解释和决策，不需要人工做决定。采用了两种基于梯度的解释方法，用于3D目标检测。

Robust Object Detection in Remote Sensing Imagery with Noisy and Sparse Geo-Annotations (Full Version)

摘要：最近，来自航空器和卫星的遥感图像的可用性不断提高。为了自动解释这些数据，基于深度学习的目标检测器达到了最先进的性能。然而，已建立的目标检测器需要完整、精确和正确的边界框注释来进行训练。为了给目标检测器创建必要的训练注释，可以对图像进行地理参照，并与其他来源的数据相结合，例如由GPS传感器定位的兴趣点。不幸的是，这种组合往往会导致糟糕的目标定位和丢失注释。因此，用这样的数据训练目标检测器往往导致检测性能不足。在本文中，我们提出了一种新的方法来训练具有极端嘈杂和不完整注释的目标检测器。我们的方法是基于一个师生学习框架和一个校正模块，该模块考虑了不精确和缺失的注释。因此，我们的方法很容易使用，并且可以与任意的目标检测器相结合。我们证明了我们的方法在一个有噪声的真实世界的遥感数据集上将标准检测器提高了37.1％的AP50。此外，我们的方法在两个具有合成噪声的数据集上取得了巨大的性能提升。代码可在github.com/mxbh/robust…

点评：遥感图像检测的文章，关注在噪声和稀疏标注情况下得鲁棒目标检测。提出了一个师生学习框架和一个校正模块，该模块考虑了不精确和缺失的注释。代码已开源。

Salient Object Detection via Dynamic Scale Routing（IEEE TIP, 2022）

摘要：最近在显著目标检测（SOD）方面的研究进展主要归功于深度学习技术所赋予的日益强大的多尺度特征表示。现有的SOD深度模型通过现成的编码器提取多尺度特征，并通过各种精细的解码器将它们巧妙地结合起来。然而，这种常用的检测器中的卷积核大小通常是 "固定 "的。在我们的新实验中，我们观察到，在含有微小显著目标的场景中，小尺寸的内核是比较好的。相比之下，大尺寸的内核在有大的显著物体的图像中可能表现更好。受这一观察的启发，我们在本文中提倡 "动态 "缩放路由（作为一个全新的想法）。它将产生一个通用的插件，可以直接适应现有的特征提取主干。本文的关键技术创新有两个方面。首先，我们提出了动态金字塔卷积（DPConv），而不是使用固定核大小的原始卷积来设计编码器，它可以根据给定的输入动态地选择最适合的核大小。其次，我们提供了一个自适应的双向解码器设计，以适应基于DPConv的最佳编码器。最重要的亮点是其在特征尺度之间的路由能力和动态收集能力，使推理过程具有尺度意识。因此，本文继续提高了当前SOTA的性能。代码和数据集都可以在github.com/wuzhenyubua… 上公开获得。

点评：显著目标检测的论文，根据大卷积核识别大物体，小卷积核识别小物体的想法，提出了动态缩放路由的方法。代码已开源。

Synthetic Data Supervised Salient Object Detection（ACM MM, 2022）

摘要：尽管深度显著目标检测（SOD）已经取得了显著的进展，但深度SOD模型对数据的要求非常高，需要大规模的像素级注释才能带来如此可观的结果。在本文中，我们提出了一种新颖而有效的SOD方法，被称为SODGAN，它可以生成无限的高质量图像-掩码对，只需要一些标记的数据，这些合成的对可以代替人类标记的DUTS-TR来训练任何现成的SOD模型。其贡献有三个方面。1）我们提出的扩散嵌入网络可以解决流形不匹配的问题，对于隐式变量的生成是可操作的，与ImageNet的隐式空间更好地匹配。2）我们提出的少样本显著性掩码生成器首次可以用几张标记的数据合成无限精确的图像同步的显著性掩码。3）我们提出的质量感知判别器可以从嘈杂的合成数据池中选择高质量的合成图像-掩码对，提高合成数据的质量。我们的SODGAN首次用生成模型直接生成的合成数据来解决SOD问题，这为SOD开辟了一个新的研究范式。大量的实验结果表明，在合成数据上训练的显著性模型可以达到在DUTS-TR上训练的显著性模型的98.4%的F-measure。此外，我们的方法在半/弱监督方法中取得了新的SOTA性能，甚至超过了几种完全监督的SOTA方法。代码可在github.com/wuzhenyubua…

点评：提出了一种可以生成无限的高质量图像-掩码对的方法，用于显著目标检测。代码已开源。

A Comparative Attention Framework for Better Few-Shot Object Detection on Aerial Images

摘要：Few-Shot Object Detection（FSOD）方法主要是在自然图像数据集上设计和评估的，如Pascal VOC和MS COCO。然而，目前还不清楚用于自然图像的最佳方法是否也是用于航空图像的最佳方法。此外，由于检测框架和训练策略的多样性，直接比较FSOD方法之间的性能很困难。因此，我们提出了一个基准框架，提供了一个灵活的环境来实现和比较基于注意力的FSOD方法。所提出的框架着重于注意力机制，并分为三个模块：空间对齐、全局注意力和融合层。为了保持与现有方法的竞争力，这些方法通常利用复杂的训练，我们提出了为目标检测设计的新的增强技术。使用这个框架，几个FSOD方法被重新实施和比较。这种比较突出了航空和自然图像上的两种不同的性能体系。FSOD在航拍图像上的表现更差。我们的实验表明，小的物体，在少量样本的情况下更难检测，是造成性能不佳的原因。最后，我们开发了一种新的多尺度配准方法，即FSOD的跨尺度查询支持配准（XQSA），以改善小物体的检测。XQSA在DOTA和DIOR上的表现明显优于最先进的方法。

点评：文章关注航空图像的少样本目标检测，提出了一个基准框架，提供了一个灵活的环境来实现和比较基于注意力的FSOD方法。所提出的框架着重于注意力机制。

Domain Adaptive Object Detection for Autonomous Driving under Foggy Weather（WACV2023）

摘要：大多数用于自动驾驶的目标检测方法通常假定训练和测试数据之间的特征分布是一致的，但当天气差异很大时，情况并不总是如此。由于领域差距，在晴朗天气下训练的目标检测模型在雾霾天气下可能不够有效。本文提出了一个新颖的领域自适应目标检测框架，用于雾霾天气下的自主驾驶。我们的方法利用图像层面和物体层面的适应性来减少图像风格和物体外观的领域差异。为了进一步提高模型在挑战性样本下的能力，我们还提出了一个新的对抗性梯度反转层，以便在领域适应的同时对困难的例子进行对抗性挖掘。此外，我们建议通过数据增强来生成一个辅助域，以执行一个新的域级度量规范化。在公共基准上的实验结果显示了所提方法的有效性和准确性。该代码可在github.com/jinlong17/D…

点评：文章关注自动驾驶中数据分布不一致的问题，提出在有雾天气下一个新的对抗性梯度反转层，使得模型能自适应。

LeNo: Adversarial Robust Salient Object Detection Networks with Learnable Noise

摘要：用深度神经网络进行像素预测已成为显著目标检测（SOD）的有效范式，并取得了显著的性能。然而，很少有SOD模型能够抵御对抗性攻击，这些攻击对于人类的视觉注意力来说是无法感知的。以前的工作中，针对对抗性攻击的鲁棒性显著目标检测（ROSA）对预先分割的超级像素进行了洗牌，然后通过密集连接的CRF完善了粗略的显著性地图。与依靠各种前处理和后处理的ROSA不同，本文提出了一个轻量级的Learnble Noise（LeNo）来对抗SOD模型的对抗性攻击。LeNo保留了SOD模型在对抗性和清洁图像上的准确性，以及推理速度。一般来说，LeNo包括一个简单的浅层噪声和噪声估计，分别嵌入到任意SOD网络的编码器和解码器中。受人类视觉注意力机制的中心先验启发，我们用十字形高斯分布初始化浅层噪声，以更好地防御对抗性攻击。所提出的噪声估计只修改了解码器的一个通道，而不是增加额外的网络组件进行后处理。通过对最先进的RGB和RGB-D SOD网络进行深度监督的噪声解耦训练，LeNo不仅在对抗性图像上，而且在干净的图像上都优于以前的作品，这对SOD的稳健性有很大的贡献。

点评：分析了显著性目标检测抵御对抗性攻击的现状，提出了一个轻量级的防御对抗性攻击的框架。