2022AAAI行人重识别文章精读之01. Pose-guided Feature Disentangling for Occluded Person Re-i

360 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第34天,点击查看活动详情

论文--[1] Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer[J]. In AAAI 2022.

摘要

被遮挡人的重新识别是一项具有挑战性的任务,因为在某些场景中,人体部位可能会被一些障碍物(例如树木、汽车和行人)遮挡。现有的一些位姿引导方法通过根据图匹配对齐身体部位来解决这个问题,但这些基于图的方法并不直观和复杂。因此,我们提出了一种基于transformer的位姿引导特征分离(PFD)方法,该方法利用位姿信息来清晰地分离语义成分(例如人体或关节部位),并相应地选择性地匹配非遮挡部位。首先,利用Vision Transformer(ViT)强大的能力提取patch特征。其次,为了初步从patch信息中分离位姿信息,在位姿引导特征聚合(PFA)模块中利用了匹配和分布机制。第三,在transformer译码器中引入了一组可学习的语义视图,以隐式增强解开的身体部位特征。然而,如果没有额外的监督,这些语义视图不能保证与身体相关。因此,提出了位姿-视图匹配(PVM)模块来显式匹配可见身体部位并自动分离遮挡特征。第四,为了更好地防止遮挡的干扰,我们设计了一种位姿引导的推送损失,以强调可见身体部位的特征。对两个任务(遮挡和整体Re-ID)的五个具有挑战性的数据集进行的大量实验表明,我们提出的PFD具有优越的前景,其性能优于最先进的方法。代码可在github.com/WangTaoAs/P…

贡献

l 提出一种新的基于transformer的姿态引导特征分离方法,使用姿态信息清晰地分解语义成分,并相应地选择性地匹配非遮挡部位

l 设计了一种姿态引导推送损失,以帮助关注人体部位,并减轻遮挡和噪声的干扰

方法

图片.png 图2:PFD由四部分组成。第一部分是视觉上下文Transformer编码器,它将摄像机信息编码到嵌入中,以捕获全局上下文信息。第二部分是位姿引导特征聚合(PFA),它利用匹配和分布机制初步指示可见的身体部位。第三部分是基于部分视图的解码器,在Nv可学习语义视图的指导下,将位姿引导特征分解为判别视图集。第四部分是位姿-视图匹配模块(PVM),该模块将获得的视图集和位姿引导特征集视为一个集匹配问题。此外,提出了位姿引导推送损失,以强调可见身体部位的特征。

实验

图片.png