顶刊TPAMI2022｜高效解决跨域行人ReID中域内和域间的双重差异，中科院自动化所出品来自中科院自动化研究所以及神经

论文标题：Learning to Adapt Across Dual Discrepancy for Cross-Domain Person Re-Identification
论文链接：ieeexplore.ieee.org/document/97…
代码链接：github.com/LuckyDC/gen…
作者单位：中国科学院自动化研究所、神经科学研究所

期刊介绍：IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）是计算机视觉、模式识别和人工智能领域公认的顶级国际期刊，是中国计算机学会（CCF）推荐的A类期刊，其最新的影响因子为35.2。

行人重识别 (re-ID) 任务目前已经取得了较大的成功，在某些情况下，基于深度学习的方法的性能甚至超过了人类识别的水平。虽然这些方法在单域设置下的表现非常好，但当面对跨域快速部署时，将完全监督的 re-ID 模型在移植到新域时性能会显着降低。根据 re-ID 任务的特点，社区将这种退化现象主要归因于目标域内的剧烈变化以及源域和目标域之间的信息偏移，可以称之为双重差异，为了获得获得一个可以很好地泛化到目标域的模型，来自中科院自动化研究所以及神经科学研究所的研究团队提出了一种新型的跨域行人re-ID方法，设置了一种行人视角感知学习方案来应对目标域内的差异学习。为了应对源域与目标域之间的信息差异，作者提出了一种新颖的跨域混合方案，其通过将源域与目标域之间的虚拟原型进行连接来处理原本不相交的标签空间，这样就可以在两个域之间引入插值作为过渡状态来实现平滑的知识迁移。作者在四个公共数据集上的广泛实验证明了本文方法的优越性。

1.引言

跨域行人ReID任务具有与无监督域适应 (unsupervised domain adaptation，UDA) 类似的任务定义。但是跨域ReID的开放测试集设置以及复杂的域层次结构使其更具挑战性，开集设置意味着源域和目标域之间的标签空间不相交，这打破了大多数 UDA 方法的基本假设。在这种情况下，如果强制将两个域之间的分布对齐可能会干扰模型对行人身份信息的学习。而对于复杂的域层次结构，指的是不同的摄像机视角、照明情况以及背景差异等等。每个域都可以进一步划分为多个摄像机子域。这样的层次结构使 re-ID 模型的跨域适应难度增大。除了域间偏移之外，它还受到域内变化的影响，包括摄像机内变化和摄像机间变化。在本文中，作者将域间偏移和域内变化统称为双重差异，如下图所示。

然而，目前大多数跨域ReID方法只考虑了一个方面，即只专注于处理域间偏移，最近也有一些研究开始注意到域内不变性的重要性，这些方法在在目标域中通过自监督来挖掘特征，以促进可迁移特征的学习。

2.本文方法

下图展示了本文方法的整体框架，作者首先从源域和目标域收集相同数量的图像，随后通过在来自两个集合的每对图像之间进行插值来合成混合数据。然后将目标图像和混合图像输入网络以提取它们的特征。这些特征随后通过全局平均池化 (GAP) 和BN操作进行后处理，需要注意的是，源图像仅用于图像混合，并未输入网络。在模型层面，作者设计了两个特定的模块来分别处理两种数据的特征，分别是摄像机感知不变性学习模块（Camera-Aware Invariance Learning）和跨域MixUp模块（Cross-Domain Mixup）。

2.1 感知不变性学习模块

对于目标图像的特征，作者维护了一个记忆池进行存储，但是根据跨域re-ID的设置，在模型训练阶段无法探知目标域的标签空间，并且每张目标图像的身份标注和目标身份的数量都是未知的，唯一有用的信息是标签空间在源域和目标域之间是不相交的。在这种情况下，无法像传统 UDA 的自训练方法那样找出目标样本的确切类别。因此只能使用样本的成对关系来指导模型模型在目标域中进行特征学习。在上述记忆池的帮助下，可以获得每个输入查询与任何目标实例之间的成对相似度 $\mathcal{S}$ 。特别地，输入样本 $x_{i}^{t}$ 与第 $j$ 个实例之间的相似度为：

s_{i j}=f\left(x_{i}^{t}\right)^{\mathrm{T}} \boldsymbol{m}_{j}

一般情况下，通常假设在嵌入空间中局部邻域内的数据点很可能共享相同的身份标签，因此作者在整个目标库中最大化每个输入查询与其最近邻居之间的概率：

\begin{array}{l} \mathcal{L}_{a g}=-\sum_{j} c_{i, j} \log p_{i j} \\ c_{i, j}=\left\{\begin{array}{cl} \frac{1}{\mathcal{N}_{i \mid} \mid}, & j \neq i \\ 1, & j=i \end{array} \quad \forall j \in \mathcal{N}_{i}\right. \end{array}

其中 $\mathcal{N}_{i \mid}$ 表示整个目标域中 $x_{i}^{t}$ 的最近邻集合，根据上述公式，邻域一致性学习的效果很大程度上依赖于邻域搜索的质量。但是使用来自源域的监督训练的模型无法很好地处理目标域中的相机差异，这导致相机之间的相似性分布出现显着差异。

如上图所示，相机间对的平均相似度小于相机内对的平均相似度。这导致相机内的候选目标很容易在列表中占据排名靠前的地位。为了清楚起见，作者还在下图中展示了一个检索示例。

如图所示，在相机间图库中排名第一的正候选者的相似度得分低于许多负相机内候选者。当以与摄像头无关的方式搜索邻居时，来自不同摄像头的正候选者可能很容易被排除在预定义的邻域范围之外。在这种情况下，选择更大的邻域范围似乎是一种可行方案，但是这种做法不可避免地会造成更多的负匹配，这会影响特征学习的效果。

2.2 跨域MixUp模块

在上一节中，作者考虑了目标域中的相机内和相机间的不变性学习，为了处理源域和目标域之间的信息迁移。作者提出了一种跨域MixUP模块。与普通的图像MixUp方法不同，这里作者并没有像普通方法那样保持转换后的图像内容不变，而是直接在像素级别的图像对之间进行插值。由于这种插值策略会导致图像内容的变化，因此标签也应该相应地进行插值，这一过程可以形式化表示：

\begin{aligned} \boldsymbol{x}_{i}^{m} & =\lambda \boldsymbol{x}_{i}^{s}+(1-\lambda) \boldsymbol{x}_{j}^{t} \\ \boldsymbol{y}_{i}^{m} & =\lambda \boldsymbol{y}_{i}^{s}+(1-\lambda) \boldsymbol{y}_{j}^{t} \end{aligned}

其中 $\boldsymbol{x}_{i}^{s}$ 和 $\boldsymbol{y}_{i}$ 分别表示源域和目标域的样本。然而直接应用混合操作是不可行的，因为目标标签 $y^{t}_{j}$ 在跨域 re-ID 的上下文中不可用。为了使混合方案适应跨域ReID设置，作者设置了一个覆盖源-目标对标签空间的动态分类器。首先创建一个带有参数矩阵 $\boldsymbol{W} \in \mathbb{R}^{P \times d}$ 的分类器来识别源域中的 $\mathcal{P}$ 个目标。对于目标实例的身份，这里用一个虚拟原型向量来表示：

\boldsymbol{v}_{\text {pos }} \in \mathbb{R}^{d}:=\left\|\boldsymbol{w}_{y_{i}^{s}}\right\|_{2} \cdot f\left(\boldsymbol{x}_{j}^{t}\right)

如上式中操作，动态创建的虚拟原型向量是从输入混合的目标实例的特征中导出的，它与目标实例特征具有相同的角度，与源原型向量具有相同的范数。现在可以将这个虚拟原型增强到源原型中，从而为跨域混合目标构成一个合适的分类器。但是这种做法会遇到严重的不平衡问题，因为组合分类器只包含每个目标实例的一个正原型，没有负样本来规范源空间之外的目标实例特征的学习。为了缓解这种不平衡，我们进一步从 $\boldsymbol{x}_{j}$ 邻域之外的记忆库中导出 $P-1$ 个负原型，具体操作如下：

V_{n e g} \in \mathbb{R}^{(P-1) \times d}:=\left\|w_{y_{i}^{s}}\right\|_{2} \cdot[\overbrace{m_{k}, \cdots}^{P-1}], \quad k \notin \mathcal{N}_{i}

通过将源原型和虚拟原型连接在一起，就获得了组合分类器的最终参数矩阵：

W^{\prime} \in \mathbb{R}^{2 P \times d}:=\left[W, \boldsymbol{v}_{\text {pos }}, V_{n e g}\right]

3.实验效果

作者在四个公共基准测试上测试了所提出方法的性能，即 Market-1501、DukeMTMC-reID、MSMT17、PersonX。为了保证实验的完整性，作者还在三个车辆ReID数据集 VehicleID、VeRI-776和 VehicleX 上评估了本文的方法。分别选择其中两个数据集作为源域和目标域。在训练期间，模型可以访问两个域的训练集。在测试过程中，在目标域的测试集中评估 rank-1、rank-5、rank-10 和平均精度 (mAP) 的累积匹配特征 (CMC)。

作者将本文方法社区中不同类型的工作进行对比，其中包括基于风格迁移的方法，基于伪标签估计的方法，以及挖掘自监督的方法，下表展示了与SOTA方法的对比效果。

作者还进行了详细的消融实验，读者可参照原文。

4.总结

在本文中，作者提出了一种用于跨域行人ReID的高性能模型。作者首先分析了原本任务中的特征并分析了影响跨域迁移性能的问题。为了解决目标域中的域内变化，作者强制目标实例之间的邻域一致性。然而由于摄像机之间的巨大差异，邻居搜索存在很大偏差。为了解决这个问题，作者建议以相机感知的方式施加约束。此外，还设计了一种新颖的跨域混合方案来处理域间转移的不利影响。它引入了两个域之间的插值作为传输的中间状态。对四个公共基准的广泛实验证明了本文方法的有效性。

往期回顾

西交人机所提出视频全景分割新基线IMTNet，发表在图像领域顶级期刊TIP上

AAAI 2023｜香港大学提出Glance-and-Focus网络，有效提升弱监督视频异常检测性能

顶刊TIP 2022｜双管齐下，中科院自动化所提出用于行为识别的姿势外观联合建模网络PARNet

顶刊TIP 2022｜武汉大学遥感国重团队提出二元变化引导的高光谱遥感多类变化检测网络BCG-Net

顶刊TIP 2023｜Rethinking无监督行人Re-ID，中科院研究团队表明采样策略是重中之重

顶刊TPAMI2022｜复旦大学研究团队提出基于贝叶斯理论的图像超分辨率网络BayeSR

顶刊TCYB 2022｜遥感显著目标检测新基线ACCoNet，南洋理工IEEE Fellow团队出品

顶刊TPAMI2023｜港中文提出基于自适应视角的APD知识蒸馏框架，有效提高现实场景语义分割性能