开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第1天,点击查看活动详情
论文发表于2022CVPR。
原文摘要
最近的研究证实,在未标记的人物图像上预先训练模型比在ImageNet上训练模型要好得多。然而,这些研究直接将为图像分类设计的现有自监督学习(SSL)方法应用于ReID,而没有在框架中进行任何自适应。这些SSL方法同时将局部视图的输出(例如,红色T恤、蓝色短裤)与全局视图的输出相匹配,从而丢失了许多细节。在本文中提出了一种特定于ReID的预训练方法,即局部感知自我监督预训练(PASS),它可以生成局部特征以提供细粒度信息,更适合于ReID。PASS将图像分成几个局部区域,从每个区域随机裁剪的局部视图被分配一个特定的可学习[PART]标记。
另一方面,所有局部区域的[PART]也附加到全局视图中。PASS学习匹配同一[PART]上的局部视图和全局视图的输出。也就是说,从局部区域学习的局部视图的[PART]仅与从全局视图学习的相应[PART]]匹配。因此,每个[PART]可以聚焦于图像的特定局部区域,并提取该区域的细粒度信息。实验表明,PASS在Market1501和MSMT17上为各种ReID任务设置了最先进的性能,例如,由PASS预先训练的ViTS/16在Market501上为监督/UDA/USL ReID实现了92.2%/90.2%/88.5%mAP准确性。代码可在github.com/CASIA-IVA-L….
摘要解读
本文是针对基于transformer的自监督行人重识别的改进,主要改进的点在于预训练模型。以前的行人重识别都采用使用ImageNet预训练的ResNet网络或者是ViT网络进行特征提取。本文中提出,这些普遍使用的网络可能并不能很好地贴近行人重识别的特征提取过程,因此提出了新的预训练网络,训练一个专门使用于行人重识别的领域。
本文贡献
Resnet和ViT之前都是由ImageNet训练,现在考虑使用LUPerson进行训练,并且之前使用的SSL(自监督学习)框架并没有进行调整,将会出现gap
提出了一种基于transformer的ReID特定预训练方法。自动提取局部特征,提供细粒度信息;使用知识蒸馏的学习范式来匹配教师网络和学生网络的输出。 首先将图像划分为几个固定的重叠局部区域,并从这些局部区域中随机裁剪局部视图。全局视图以更高的分辨率从整个图像中随机裁剪。所有视图都传递给学生,而只有全局视图传递给老师。为了简单起见,在图1(c)中仅说明了通过学生传递的局部视图和通过教师传递的全局视图的输出之间的比较。在通过学生之前,从每个局部区域裁剪的局部视图被分配一个特定的可学习[PART]标记,用于学习局部表示。所有这些[PART]也被添加到全局视图中,并反馈给老师,以从整个图像中学习局部特征。PASS学习匹配局部视图和全局视图的相应[PART],其中不比较不同区域的[PART]s。以图1(c)为例,从上部局部区域裁剪的局部视图(局部视图1和2)被分配为[PART]1;从下部局部区域裁剪的局部视图(局部视图3和4)被分配为[PART]2。
局部视图1[PART]1s的预测仅与全局视图的[PART]1s的预测进行比较,[PART]2也是如此。
具体方法
PASS的概述。为了简单起见,在L=2的情况下说明了PASS。
全局随机变换(全局变换)从整个图像中裁剪出全局视图,两个局部随机变换(局部变换)分别从两个局部区域中裁剪出局部视图。每个局部区域的局部视图都分配了一个特定的[PART]。所有局部区域的[PART]也附加到全局视图中。[CLS]也附加到所有视图中。在预训练中,所有视图都通过学生,而只有全局视图通过教师。每个网络通过投影头预测[CLS]和[PART]上的几个K维特征,并且特征在特征维度上用温度softmax归一化。然后用交叉熵损失测量学生和教师输出的相同[PART]/[CLS]之间的相似性。在教师身上应用停止梯度算子,以便仅通过学生传播梯度。用学生参数的指数移动平均(ema)更新教师参数
微调
通过PASS预先训练,ViT主干的[CLS]能够学习输入图像的全局描述,并且[PART]可以自动聚焦局部区域并提取局部表示。因此,在微调中,只需要将[CLS]和所有[PART]附加到输入图像的嵌入序列中,它们就可以自动聚焦于不同级别的特征。教师网络用于微调。
UDA/USL ReID. 所有训练图像通过网络以获得训练数据特征。然后,对这些特征进行聚类以生成伪标签。通过对具有相同伪标签的特征进行平均,获得集群原型。接下来,在训练中,计算输出特征和集群原型之间的对比损失,以优化网络。
实验
数据集:LUPerson用于预训练,在Market1501和MSMT17上进行微调。