开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第24天，点击查看活动详情

论文-[1] Liu X , Zhang P , Yu C , et al. Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification[J]. CVPR, 2021.

摘要

基于视频的行人重识别(Re-ID)是指在非重叠摄像机下自动检索同一人的视频序列。要实现这一目标，充分利用视频中丰富的时空线索是关键。现有的方法通常只关注图像中最显著的区域，由于图像序列中人物的不同，很容易错过细粒度的线索。针对以上问题，本文提出了一种基于全局引导的交互学习(global guided Reciprocal Learning, GRL)的视频行人重识别框架。具体来说，首先提出了一种全局引导的相关估计(global guided Correlation Estimation, GCE)方法来生成局部特征和全局特征的特征相关图，从而帮助定位识别同一个人的高相关区域和低相关区域。然后，在全局表示的指导下，将判别特征分解为高相关特征和低相关特征。此外，设计了一种新的时间交互学习(TRL)机制，对高相关语义信息进行顺序增强，对低相关次关键线索进行累积。

贡献

提出了一种新的基于视频的行人重识别全局引导交互学习框架—GRL。

提出了一个全局引导的相关估计模块GCE，用于估计全局引导下帧级局部特征的相关值。通过GCE，将每帧级特征图分解为两种具有不同关联度的判别特征。关联度高的，通常包含最显著、最连续的视觉信息。另一个反向相关作为补充，用于挖掘细粒度和次关键线索

引入时间交互学习(TRL)模块，有效捕捉视频中的显著信息和细粒度线索。充分利用正反向过程中的所有判别特征。具体来说，对于高相关性特征，采用语义增强策略来挖掘空间显著性和时间对齐的信息。对于低相关特征，引入一种时间记忆策略，逐帧累积不连续但具有判别性的线索。

方法

图片.png GRL的总体架构如图1所示。包括帧级特征提取，全局引导特征解纠缠，时间交互学习。给定一个视频，首先使用限制随机抽样(RRS)生成训练图像帧。然后，通过一个预先训练的骨干网(ResNet-50)提取帧级特征。接着采用时间平均池(TAP)和全局平均池(GAP)来生成视频水平表示。在视频级表示的指导下，设计了一种全局引导的相关估计(global guided Correlation estimate, GCE)来生成相关图，并将帧级特征分解为高相关和低相关特征。然后，引入时间往复学习(TRL)，在前后两个方向上增强和累积解纠缠特征。最后，引入了在线实例匹配(OIM)损失和验证损失来优化整个网络。

实验

数据集：iLIDS-VID、PRID-2011和MARS

骨干网络：ResNet-50

视频：为了生成训练序列，采用RRS策略，将每个视频序列分成8个时长相等的块

图片：256×128，并通过随机裁剪、水平翻转和随机删除

训练：batchsize=16,T=8,50epoch

框架：pytorch

结果：

图片.png

2021CVPR行人重识别文章精读之12.Watching You: Global-guided Reciprocal Learning for Video-b

摘要

贡献

方法

实验