开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第34天,点击查看活动详情
论文--[1]* Haochen Wang , Jiayi Shen , Yongtuo Liu , et al. NFormer:Robust Person Re-Identification with Neighbor Transformer[J]. In CVPR 2022.
摘要
人员重新识别旨在跨不同摄像机和场景在高度不同的环境中检索人员,其中鲁棒和有区别的表示学习至关重要。大多数研究考虑从单个图像中学习表示,忽略了它们之间的任何潜在交互。然而,由于身份内变异较大,忽略此类交互通常会导致异常特征。为了解决这个问题,我们提出了一种Neighbor Transformer网络,或NFormer,它明确地建模了所有输入图像之间的交互,从而抑制了异常特征,并导致整体上更稳健的表示。由于建模大量图像之间的交互是一项具有大量干扰因素的艰巨任务,NFormer引入了两个新模块,即Landmark Agent Attention和Reciprocal Neighbor Softmax。具体来说,地标代理注意力通过低秩因子分解和特征空间中的几个地标有效地建模图像之间的关系图。此外,互惠邻域Softmax实现了对相关邻域而非全部邻域的稀疏关注,这减轻了不相关表示的干扰,并进一步减轻了计算负担。在四个大规模数据集上的实验中,NFormer实现了一种新的技术状态。代码发布于github.com /Haochenheda /NFormer
贡献
l 使每个身份具有较低的表示变化,NFormer计算各个表示之间关系的亲和矩阵,然后根据亲和矩阵执行表示聚合过程。图像之间关系建模的参与抑制了高度的内部身份差异,并产生了更稳健的特征
l 提出了一个Landmark Agent注意力模块(LAA),该模块通过在表示空间中引入少量Landmark Agent来减少亲和矩阵中的计算。landmark代理将表示向量从高维特征空间映射到低维编码空间,该编码空间将大型亲和映射分解为低秩矩阵的乘法。
l 使用标准softmax的表示聚合过程会处理所有输入表示,这往往会因大量不相关的表示而分散注意力和消耗计算量。我们引入了Reciprocal Neighbor Softmax函数(RNS),以实现仅关注计算可管理邻居的稀疏注意力。互惠邻域Softmax显著地约束了无关个体之间的噪声交互,这使得表示聚合过程更加有效和高效。
方法
图2.NFormer的图示。GAP:全局平均池。LAA:Landmark代理注意。RNS:互惠邻居Softmax。FF:前馈网络。输入N个图像,使用卷积网络和GAP获得表示向量
。将
馈送到NFormer,其中提出的LAA将d维表示映射到具有采样标志代理zl的l维编码空间,然后更有效地获得近似亲和矩阵~A。然后,提出了RNS来获得稀疏注意权重s(~A),并通过
的加权聚合获得输出表示
。最后,在检索过程中,对NFormer后的表示向量执行排序算法。
实验
数据集:Market1501,DukeMTMC-reID,MSMT17,CUHK03
采用在ImageNet上预训练的ResNet-50作为特征提取器的主干架构。