开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第25天，点击查看活动详情

论文--[1] He S , Luo H , Wang P , et al. TransReID: Transformer-based Object Re-Identification[J]. ICCV, 2021.

摘要

提取鲁棒的特征表示是对象重识别(ReID)的关键问题之一。虽然基于卷积神经网络(CNN)的方法已经取得了很大的成功，但它们一次只处理一个局部邻域，并且由于卷积和下采样算子(如pooling和stride卷积)导致细节信息丢失。为了克服这些限制，提出了一个transformer-based的对象ReID框架TransReID。具体来说，首先将图像编码为一系列的补丁，并通过一些关键的改进构建transformer-based的strong baseline，超越了在基于cnn的方法的多个ReID基准，实现了具有竞争力的结果。为了进一步增强transformer环境下的鲁棒特征学习，设计了两个新的模块。(i)提出jigsaw patch module (JPM)，通过shift和patch shuffle操作对patch的嵌入进行重新排列，生成鲁棒的特征，提高了识别能力，覆盖范围更加多样化。(ii)引入侧信息嵌入(SIE)，通过插入可学习嵌入来融合这些非视觉线索，从而减轻对相机/视图变化的特征偏差。这是第一个在ReID研究中采用纯transformer的工作。TransReID的实验结果很有希望，它在人和车辆ReID基准上都达到了最先进的性能。

贡献

•提出了一个强大的基线TransReID，首次为ReID任务使用pure transformer，并与基于cnn的框架实现了类似的性能。

•设计了一个jigsaw patches module (JPM)，包括shift和patch shuffle两种操作，有利于实现对象的扰动不变性和鲁棒特征表示。

•引入了一种侧信息嵌入(SIE)，它通过可学习的嵌入对侧信息进行编码，并被证明可以有效地减轻学习特征的偏差。

方法

图片.png

两个步骤：特征提取和监督学习。输入图像x，分割成N个固定大小patch，一个额外的可学习的嵌入标记，记为被嵌入到输入序列。输出的[cls]标记作为一个全局特征表示f.通过添加可学习的位置嵌入来合并空间信息。那么送到transformer层的输入序列为:

图片.png

实验

数据集：Market-1501、DukeMTMC-reID和MSMT17.Occluded-Duke

图片：256×128，并通过随机裁剪、水平翻转和随机删除

训练：batchsize=64,每个ID 4张图片

参数：SGD优化器设置为0.9,weight decay=1e-4, 学习速率初始化为0.008，以余弦学习速率衰减。行人m=5,k=4

硬件：Nvidia Tesla V100 GPU

框架：pytorch

结果：

图片.png

2021ICCV行人重识别文章精读之05.TransReID: Transformer-based Object Re-Identification

摘要

贡献

方法

实验