2021CVPR行人重识别文章精读之12.Watching You: Global-guided Reciprocal Learning for Video-b

156 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第24天,点击查看活动详情

论文-[1] Liu X ,  Zhang P ,  Yu C , et al. Watching You: Global-guided Reciprocal Learning for Video-based Person Re-identification[J]. CVPR, 2021.

摘要

基于视频的行人重识别(Re-ID)是指在非重叠摄像机下自动检索同一人的视频序列。要实现这一目标,充分利用视频中丰富的时空线索是关键。现有的方法通常只关注图像中最显著的区域,由于图像序列中人物的不同,很容易错过细粒度的线索。针对以上问题,本文提出了一种基于全局引导的交互学习(global guided Reciprocal Learning, GRL)的视频行人重识别框架。具体来说,首先提出了一种全局引导的相关估计(global guided Correlation Estimation, GCE)方法来生成局部特征和全局特征的特征相关图,从而帮助定位识别同一个人的高相关区域和低相关区域。然后,在全局表示的指导下,将判别特征分解为高相关特征和低相关特征。此外,设计了一种新的时间交互学习(TRL)机制,对高相关语义信息进行顺序增强,对低相关次关键线索进行累积。

贡献

提出了一种新的基于视频的行人重识别全局引导交互学习框架—GRL。

提出了一个全局引导的相关估计模块GCE,用于估计全局引导下帧级局部特征的相关值。通过GCE,将每帧级特征图分解为两种具有不同关联度的判别特征。关联度高的,通常包含最显著、最连续的视觉信息。另一个反向相关作为补充,用于挖掘细粒度和次关键线索

引入时间交互学习(TRL)模块,有效捕捉视频中的显著信息和细粒度线索。充分利用正反向过程中的所有判别特征。具体来说,对于高相关性特征,采用语义增强策略来挖掘空间显著性和时间对齐的信息。对于低相关特征,引入一种时间记忆策略,逐帧累积不连续但具有判别性的线索。

方法

图片.png GRL的总体架构如图1所示。包括帧级特征提取,全局引导特征解纠缠,时间交互学习。给定一个视频,首先使用限制随机抽样(RRS)生成训练图像帧。然后,通过一个预先训练的骨干网(ResNet-50)提取帧级特征。接着采用时间平均池(TAP)和全局平均池(GAP)来生成视频水平表示。在视频级表示的指导下,设计了一种全局引导的相关估计(global guided Correlation estimate, GCE)来生成相关图,并将帧级特征分解为高相关和低相关特征。然后,引入时间往复学习(TRL),在前后两个方向上增强和累积解纠缠特征。最后,引入了在线实例匹配(OIM)损失和验证损失来优化整个网络。

实验

数据集:iLIDS-VID、PRID-2011和MARS

骨干网络:ResNet-50

视频:为了生成训练序列,采用RRS策略,将每个视频序列分成8个时长相等的块

图片:256×128,并通过随机裁剪、水平翻转和随机删除

训练:batchsize=16,T=8,50epoch

框架:pytorch

结果:

图片.png