2022cvpr行人重识别文章精读之13.Cascade Transformers for End-to-End Person Search

228 阅读2分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第26天,点击查看活动详情

论文--[1] Rui Y ,  Dawei D ,  Rodney LaLonde , et al. Cascade Transformers for End-to-End Person Search[J]. CVPR, 2022.

摘要

行人搜索的目标是从一组场景图像中定位一个目标行人。在本文中提出了用于端到端行人搜索的级联遮挡注意Transformer(COAT)。三阶段级联设计在第一阶段侧重于的行人检测,后续阶段同时进行,并逐步细化行人检测和重新识别的表征。在每个阶段,遮挡注意Transformer在联合阈值上应用更紧密的交集,迫使网络学习从粗到细的姿态/尺度不变特征。同时,计算每个检测器的遮挡注意力以区分行人token。通过这种方式,可以在token级别模拟其他对象遮挡感兴趣的人的效果。

贡献

l 第一个基于级联的transformer端到端行人搜索框架,渐进式设计有效地平衡了行人检测和ReID,transformer有助于注意比例和姿态、视角的变化。

l 在多尺度transformer中,采用一种遮挡注意机制,在遮挡场景中生成具有鉴别性的细粒度人物表征,从而提高了性能

方法

本文网络是基于Faster R-CNN物体检测器主干和区域提议网络(RPN),通过引入一个层叠的遮挡注意力transformer来扩展框架,使用端到端的方式进行训练

图片.png

从ResNet-50骨干中提取1024-dim stem特征映射后,使用RPN生成区域建议(用来提取候选框)。

对于每个方案,应用RoI-Align操作对一个h×w区域进行池化,作为base特征图F.

采用多阶段级联结构学习嵌入的行人检测和ReID。

RPN的输出建议在第一阶段用于对正实例和负实例进行重新采样。然后将第一阶段的box输出作为第二阶段的输入,以此类推。

在每个阶段t,将每个合并特征图发送给该阶段的卷积transformer。为了获得高质量的实例,级联结构逐步施加更严格的阶段约束。

在实际应用中,逐步增加交叉并集(IoU)阈值。每个阶段的transformer后面跟着三个head,包括一个person/background classifier、一个box regressor和一个ReID discriminator。在第一阶段去掉了ReID鉴别器,以便在细化之前将网络集中于首先检测场景中的所有人。

实验

数据集:CUHK-SYSU,PRW

图片:900×150

骨干网络:ResNet50前4个块(con1-con4)作为骨干

训练:15epoch

参数:每个阶段提取每幅图像128个检测proposal,h=w=14

硬件:Nvidia A100 GPU

框架:pytorch

图片.png