开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第25天,点击查看活动详情
论文--[1] He S , Luo H , Wang P , et al. TransReID: Transformer-based Object Re-Identification[J]. ICCV, 2021.
摘要
提取鲁棒的特征表示是对象重识别(ReID)的关键问题之一。虽然基于卷积神经网络(CNN)的方法已经取得了很大的成功,但它们一次只处理一个局部邻域,并且由于卷积和下采样算子(如pooling和stride卷积)导致细节信息丢失。为了克服这些限制,提出了一个transformer-based的对象ReID框架TransReID。具体来说,首先将图像编码为一系列的补丁,并通过一些关键的改进构建transformer-based的strong baseline,超越了在基于cnn的方法的多个ReID基准,实现了具有竞争力的结果。为了进一步增强transformer环境下的鲁棒特征学习,设计了两个新的模块。(i)提出jigsaw patch module (JPM),通过shift和patch shuffle操作对patch的嵌入进行重新排列,生成鲁棒的特征,提高了识别能力,覆盖范围更加多样化。(ii)引入侧信息嵌入(SIE),通过插入可学习嵌入来融合这些非视觉线索,从而减轻对相机/视图变化的特征偏差。这是第一个在ReID研究中采用纯transformer的工作。TransReID的实验结果很有希望,它在人和车辆ReID基准上都达到了最先进的性能。
贡献
•提出了一个强大的基线TransReID,首次为ReID任务使用pure transformer,并与基于cnn的框架实现了类似的性能。
•设计了一个jigsaw patches module (JPM),包括shift和patch shuffle两种操作,有利于实现对象的扰动不变性和鲁棒特征表示。
•引入了一种侧信息嵌入(SIE),它通过可学习的嵌入对侧信息进行编码,并被证明可以有效地减轻学习特征的偏差。
方法
两个步骤:特征提取和监督学习。输入图像x,分割成N个固定大小patch,一个额外的可学习的嵌入标记,记为
被嵌入到输入序列。输出的[cls]标记作为一个全局特征表示f.通过添加可学习的位置嵌入来合并空间信息。那么送到transformer层的输入序列为:
实验
数据集:Market-1501、DukeMTMC-reID和MSMT17.Occluded-Duke
图片:256×128,并通过随机裁剪、水平翻转和随机删除
训练:batchsize=64,每个ID 4张图片
参数:SGD优化器设置为0.9,weight decay=1e-4, 学习速率初始化为0.008,以余弦学习速率衰减。行人m=5,k=4
硬件:Nvidia Tesla V100 GPU
框架:pytorch
结果: