开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第29天，点击查看活动详情

论文--[1] H Park, Lee S , Lee J , et al. Learning by Aligning: Visible-Infrared Person Re-identification using Cross-Modal Correspondences[J]. ICCV, 2021.

摘要

可见-红外行人重识别(VI-reID)的两个主要挑战是人物图像的内部变化，以及可见光和红外图像之间的跨模态差异。假设人的图像是大致对齐的，以前的方法试图学习粗糙的图像或严格的局部层面的行人表征，这些表征在不同的模式中具有鉴别性和泛化性。然而，通常被现成的物体检测器所裁剪的人的图像并不一定是对齐良好的，这就干扰了有鉴别性的行人表征学习。在本文中，我们介绍了一个新的特征学习框架，以统一的方式解决这些问题。为此，我们提出利用跨模态人物图像之间的密集对应。这允许在像素级解决跨模态差异，更有效地抑制行人表征中的模态相关特征。这也鼓励了跨模态局部特征之间像素级的关联，进一步促进了VI-reID的鉴别特征学习。

贡献

l RGB和IR图像的不对齐特征会对跨模态差异的处理产生不利影响==提出了一种新的VIreID特征学习框架，该框架使用密集的跨模态对应，有效地缓解了多模态图像之间的差异，同时进一步增强了行人表征的识别能力

引入身份一致性和密集三元组损失来训练端到端网络，这有助于使用跨模态通信提取有区别的行人表示。

方法

图片.png

首先从相应的行人图像中提取RGB和IR特征，然后将这些特征与CMAlign模块对齐。它在RGB和IR特征之间建立了密集的跨模态对应关系，并利用相应的匹配概率使这些特征相互扭曲。请注意，只在训练时间使用CMAlign模块，从而在测试时间实现有效的推理。

为了训练框架，使用了三个阶段:ID (LID)、ID一致性(LIC)和密集三元组损失(LDT)。

l ID损失分别适用于RGB或IR图像中的每个特征。它强制同一身份的人物图像具有相同的特征，同时为不同身份的图像提供不同的特征。

ID一致性和密集三元组阶段利用匹配概率，鼓励来自同一身份的RGB和IR特征在像素级上相互重建。

实验

基线：ResNet50

数据集：RegDB,,SYSU-MM01

Mini-batch:每个模态选择8个身份，每个身份采样4张图像

结果：

图片.png

2021ICCV行人重识别文章精读之09.Learning by Aligning: Visible-Infrared Person Re-identifica

摘要

贡献

方法

实验