开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第26天,点击查看活动详情
论文--[1] Rui Y , Dawei D , Rodney LaLonde , et al. Cascade Transformers for End-to-End Person Search[J]. CVPR, 2022.
摘要
行人搜索的目标是从一组场景图像中定位一个目标行人。在本文中提出了用于端到端行人搜索的级联遮挡注意Transformer(COAT)。三阶段级联设计在第一阶段侧重于的行人检测,后续阶段同时进行,并逐步细化行人检测和重新识别的表征。在每个阶段,遮挡注意Transformer在联合阈值上应用更紧密的交集,迫使网络学习从粗到细的姿态/尺度不变特征。同时,计算每个检测器的遮挡注意力以区分行人token。通过这种方式,可以在token级别模拟其他对象遮挡感兴趣的人的效果。
贡献
l 第一个基于级联的transformer端到端行人搜索框架,渐进式设计有效地平衡了行人检测和ReID,transformer有助于注意比例和姿态、视角的变化。
l 在多尺度transformer中,采用一种遮挡注意机制,在遮挡场景中生成具有鉴别性的细粒度人物表征,从而提高了性能
方法
本文网络是基于Faster R-CNN物体检测器主干和区域提议网络(RPN),通过引入一个层叠的遮挡注意力transformer来扩展框架,使用端到端的方式进行训练
从ResNet-50骨干中提取1024-dim stem特征映射后,使用RPN生成区域建议(用来提取候选框)。
对于每个方案,应用RoI-Align操作对一个h×w区域进行池化,作为base特征图F.
采用多阶段级联结构学习嵌入的行人检测和ReID。
RPN的输出建议在第一阶段用于对正实例和负实例进行重新采样。然后将第一阶段的box输出作为第二阶段的输入,以此类推。
在每个阶段t,将每个合并特征图发送给该阶段的卷积transformer。为了获得高质量的实例,级联结构逐步施加更严格的阶段约束。
在实际应用中,逐步增加交叉并集(IoU)阈值。每个阶段的transformer后面跟着三个head,包括一个person/background classifier、一个box regressor和一个ReID discriminator。在第一阶段去掉了ReID鉴别器,以便在细化之前将网络集中于首先检测场景中的所有人。
实验
数据集:CUHK-SYSU,PRW
图片:900×150
骨干网络:ResNet50前4个块(con1-con4)作为骨干
训练:15epoch
参数:每个阶段提取每幅图像128个检测proposal,h=w=14
硬件:Nvidia A100 GPU
框架:pytorch