【ReID】Viewpoint-Aware Loss with Angular Regularization for Person Re-Identificat

中了AAAI 2020的一篇文章，Viewpoint-Aware Loss with Angular Regularization for Person Re-Identification[1] 带角度正则化的视角感知损失。

不同于视角和不同id之间分离研究的方向，文章提出了带角度正则化的视角感知损失 Viewpoint-Aware Loss with Angular Regularization (VA-reID)，将行人视角投影到统一的特征子空间当中研究的方法，同时在id层面和视角层面有效建模了特征的分布。另外为了有效地拟合视角聚类标签分配的模糊性，本文引入了视角感知自适应标签平滑正则化 viewpoint-aware adaptive label smoothing regularization (VALSR)。本文工作在多个benchmark中均取得了SOTA。

论文一览：

在这里插入图片描述

痛点

ReID存在大量的视角变化问题，这对于正确识别行人id带来了很大的挑战。许多解决视角变化的工作是学习针对具有不同视角的人体图像的判别特征表示来实现的，但是这些工作普遍存在一些问题：

1.这些工作将视角学习和id表征学习作为两种分开的过程，而没有一种统一的原则来在不同视角变化下学习最优id分类。

2.这些工作将不同行人的视角挂了硬标签，但在现实中一个人的不同视角是很模糊的。

3.将特征投影到分离且不相关的子空间中，只会模拟每个视点内的身份级别分布，而可能会忽略不同视点之间的潜在关系。

4.无法直接学习来自单独视点子空间的要素之间的关系，从而损害了模型匹配来自不同视点的人的图像的能力。

为了解决这些问题，因此文章提出将所有特征投影到一个统一的子空间中，并从不同的角度直接对特征的分布进行建模。如图1的(d)(f)，文章在身份级别和视点级别对特征分布进行建模，在id层面，将不同的id彼此推开以形成id级别的聚类。在视角层面，每个id聚类中的特征将进一步产生三个视角级别的聚类（正面，侧面，背面），并且由于它们的视觉效果，使用了新颖的中心正则化将这些聚类的中心拉近相同id的相似性。

在这里插入图片描述

此外，由于视角统一聚类的引入，还会带来标签分配的问题。作者发现一些视角的样本标签应该是模糊的，而这时候视角聚类的硬标签分配可能会误导学习。

因此，文章提出了放松硬标签分配，而改为执行软标签分配，如图1（f）所示。

模型

给定一个图像 $I_{i}$ 在这里插入图片描述其中 $x_{i}$ 是第 i 张图像提取的feature， $v_{i}$ 为其对应的视角label，包含正面，侧面和背面三种， $y_{i}$ 为其对应的id label。

整个模型的结构示意图如下图2，提出的 viewpoint-aware angular loss视角感知角损失将特征投影到一个超球体上，以形成身份层面的聚类（浅绿色和蓝色圆圈）和视角层面的聚类（深绿色和棕色圆圈）。

在这里插入图片描述

模型将两个与角度相关的损失整合到统一的学习框架中，可以在统一的超球面上为特征 $x_{i}$ 建立两级分布，包括id层面的分布和视角层面的分布。模型总loss有：

在这里插入图片描述其中 $L_{y}$ 表示id的角损失（施加了arcface loss角约束的softmax loss）， $L_{v}$ 为视角感知角损失， $L_{R}$ 为中心正则化项。

在图2右下角展示了视角感知自适应的label smooth regularization，其施加到 $L_{v}$ 中消除视角聚类之间的硬边距（hard margin）。此外模型还在 $L_{y}$ 探索了一个小的自适应标签平滑正则化，以有效地提高模型的泛化能力。

带角正则化的视角感知损失 Viewpoint-Aware Loss with Angular Regularization

传统方法上softmax loss 有

在这里插入图片描述其中K为id 的数量，x为feature，其中第y列的weight $W_{y}$ 有

在这里插入图片描述文章根据arcface loss，使用余弦距离将特征投影到超球面

在这里插入图片描述其中有

在这里插入图片描述角损失有助于对id进行更好的区分分布建模，因此文章也将此拓展到了视角感知损失中。

第y列的weight $W_{y}$ 能够被视为id 为y的center，为了获得更高的图像 $I$ 属于y的可能性，文章需要将特征向量 $x_{i}$ 拉近中心 $W_{y}$ 。为了建模不同视角的分布，文章将每个id 类能够被深度分类为V个子类，这V个子类能够对应到V个视角（如正面视角，侧面视角，背面视角）

定义视角中心为

在这里插入图片描述

则对于id和视角的建模可以表示为：

在这里插入图片描述其中有则基于以上，id classification loss $L_{y}$ 和视角感知 loss $L_{v}$ 有：

在这里插入图片描述

其中p和t都是label，传统方法都是硬标签（hard label）：

在这里插入图片描述

为了保持同一人但具有不同视角的要素之间的视觉相似性，连接id和视角辨别，文章提出了中心正则化项，

在这里插入图片描述

自适应标签平滑正则化 adaptive label smoothing regularization

如果是Label smoothing regularization(LSR)有：

在这里插入图片描述

其中ε是一个固定的置, 用来调节模型对label的置信度。作为一个固定的值，ε对于每个输入样本，得出类别的预期概率相同，其他类别也是如此，但作者认为实际输入的样本具有不同的logit，因此对它们应用相同的预期概率是不合适的。

根据先验假设：网络往往会优先考虑先学习实际数据的简单模式，然后再学习噪声。考虑到训练集中存在噪声的情况，将带有真实身份标签y1的图像I错误地标注为y2。根据假设，网络倾向于先学习正样本，然后学习噪声样本。通常，噪声样本的标签对数比阳性样本小。因此本文拓展了一种新的平滑参数 $\epsilon = (1 - q(j))$ ，则p有：

在这里插入图片描述 $\alpha$ 为比例缩放系数，当输出 $q(j)$ 大，则 $\epsilon$ 小，因此对该类有一个比较大的置信度。这种自适应标签平滑正则化针对噪声数据和过度拟合具有更好的性能，如图3(a)。

在这里插入图片描述

根据先验假设：现实中人的(view point)视角是一种连续值，而不是hard value。根据这个假设，本文将自适应标签平滑应用到视角损失中。由于模型建模了id 层面和视角层面的分布，文章根据视角（正面，侧面，背面）将每个身份标签划分为三个子类别，因此，每张图像都可分为3K视角感知类别。作者认为为软标签分配视角感知角损失，正则化程度将根据标签所属的聚类的级别而有所不同，如图3(b)所示。

对视角感知损失的自适应标签有

在这里插入图片描述