开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第14天,点击查看活动详情
论文--[1] Yan Y , Li J , Qin J , et al. Anchor-Free Person Search:, 10.48550/arXiv.2103.11617[P]. 2021.
摘要
行人搜索的目的是从真实的、未裁剪的图像中同时定位和识别查询行人,可以看作是行人检测和行人重识别(re-id)的统一任务。大多数现有的工作采用两级探测器,如Faster-RCNN,产生了很高的准确性,但有很高的计算开销。在这项工作中,我们提出了特征对齐的行人搜索网络(AlignPS),第一个无锚框架,以有效地解决这一具有挑战性的任务。AlignPS明确地解决了主要的挑战,我们总结为不同级别(即,规模,区域和任务)的错位问题,为该任务适应无锚检测器。更具体地说,我们提出了一个对齐特征聚合模块,通过遵循“行人重识别优先”原则来生成更具甄别性和鲁棒性的特征嵌入。这样一个简单的设计直接改进了香港中文大学-中山大学的基线,提高了20%以上。此外,AlignPS的性能优于最先进的两阶段方法,具有更高的速度。
方法
- 总体框架
如图2所示,我们的模型同时对图像中的多个行人进行局部化,并为他们学习行人重识别嵌入。具体来说,开发了一个AFA模块,用于从骨干网的多级特征图中聚合特征。为了学习行人重识别嵌入(这是我们方法的关键),我们直接从AFA的输出特征图中提取平坦的特征作为最终的嵌入,不需要额外的嵌入层。在检测方面,我们采用了FCOS的检测头,它可以很好地完成检测子任务。检测头由两个分支组成,每个分支都包含四个3×3convlayers。同时,第一个分支预测回归偏移量和中心度得分,而第二个分支进行前景/背景分类。最后,将AFA输出特征图上的每个位置与带有分类和中心度评分的丰富框关联,并进行行人重识别特征嵌入
- 对齐特征聚合
尺度对齐。只基于一层AFA进行预测,这明确地解决了由尺度变化引起的特征错位。具体来说,我们使用来自ResNet-50主干的{C3,C4,C5}特征图,AFA依次输出{P5,P4,P3},步幅分别为32,16,8。无论是detection和re-id子任务,我们都只从输出特征图最大的{P3}学习特征。
区域对齐。用3×3 deformable conv layers替换1×1conv layers 的横向连接。由于原有的横向连接是为了减少特征图的通道而设计的,因此一个1×1convis就足够了。3×3 deformable conv layers可让网络自适应地调整输入特征图上的接受域,从而隐式地实现区域对齐。其次,我们将自上而下路径中的“sum”操作替换为“concatenation”操作,可以更好地聚合多层次特征。第三,在FPN输出层上,我们再次用3×3 deformable conv替换3×3 conv ,进一步对多层次特征进行比对,最终生成更准确的特征图。
任务对齐。AFA的输出直接被行人重识别损失监督,然后反馈到到检测头。该设计显著提高了行人重识别嵌入,而对检测的影响微乎其微。不需要额外层次生成行人重识别嵌入层。