开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第29天,点击查看活动详情
论文--[1] H Park, Lee S , Lee J , et al. Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences[J]. ICCV, 2021.
摘要
可见-红外行人重识别(VI-reID)的两个主要挑战是人物图像的内部变化,以及可见光和红外图像之间的跨模态差异。假设人的图像是大致对齐的,以前的方法试图学习粗糙的图像或严格的局部层面的行人表征,这些表征在不同的模式中具有鉴别性和泛化性。然而,通常被现成的物体检测器所裁剪的人的图像并不一定是对齐良好的,这就干扰了有鉴别性的行人表征学习。在本文中,我们介绍了一个新的特征学习框架,以统一的方式解决这些问题。为此,我们提出利用跨模态人物图像之间的密集对应。这允许在像素级解决跨模态差异,更有效地抑制行人表征中的模态相关特征。这也鼓励了跨模态局部特征之间像素级的关联,进一步促进了VI-reID的鉴别特征学习。
贡献
l RGB和IR图像的不对齐特征会对跨模态差异的处理产生不利影响==提出了一种新的VIreID特征学习框架,该框架使用密集的跨模态对应,有效地缓解了多模态图像之间的差异,同时进一步增强了行人表征的识别能力
引入身份一致性和密集三元组损失来训练端到端网络,这有助于使用跨模态通信提取有区别的行人表示。
方法
首先从相应的行人图像中提取RGB和IR特征,然后将这些特征与CMAlign模块对齐。它在RGB和IR特征之间建立了密集的跨模态对应关系,并利用相应的匹配概率使这些特征相互扭曲。请注意,只在训练时间使用CMAlign模块,从而在测试时间实现有效的推理。
为了训练框架,使用了三个阶段:ID (LID)、ID一致性(LIC)和密集三元组损失(LDT)。
l ID损失分别适用于RGB或IR图像中的每个特征。它强制同一身份的人物图像具有相同的特征,同时为不同身份的图像提供不同的特征。
ID一致性和密集三元组阶段利用匹配概率,鼓励来自同一身份的RGB和IR特征在像素级上相互重建。
实验
基线:ResNet50
数据集:RegDB,,SYSU-MM01
Mini-batch:每个模态选择8个身份,每个身份采样4张图像
结果: