《Unsupervised Person Re-identification via Softened Similarity Learning》论文简读

1,128 阅读4分钟

核心问题的提出:

基于聚类的无监督ReID策略,其训练依赖于聚类形成的伪标签,而伪标签继而影响聚类结果,反复如此。这样的策略存在两个问题:1、难以确定聚类中心的数目 2、因聚类错误而引出的绝对的量化误差

如图(a)所示,A和B是同一个人,但是A和C却在特征空间中距离较近。根据聚类初始化伪标签之后,训练后的特征空间,A与B的距离进一步变大,而不是缩小。

解决思路:

​ 摒弃聚类策略,不用绝对的类别来描述未知标签的图片,而是挖掘没有标注的图片之间的关系作为软约束,使相似的图片具有相近的特征表示。文中采用了松弛的标签,不同于传统的one-hot标签使图片属于某一个确切的类别,本文将标签视为一种分布,而一张图片被鼓励同多个具有关联的类别进行相关。

提出的方法:

文章首先介绍Baseline模型,然后对baseline模型进行调整,得到最终的模型。

Baseline:使用Hard Labels进行初始化

已知 training set X={x1,x2,...,xN}X = \{x_1, x_2, ..., x_N\} ,其中xix_i 为无标签的人的图片。将xix_i的index ii 视为其初始标签yiy_i。因此,每个训练集中的图片都被分类为一个只有自身的单独的类。

利用一个分类模型提取每个图片的特征,并用字典结构进行存储。

之后,对于每一张图片的特征v,将其进行归一化处理,得到 v=ϕ(θ;x)ϕ(θ;x)v = \frac{\phi(\theta; x)}{||\phi(\theta; x)||}, 然后计算每张图片属于第 ii 类的概率为

p(yix,V)=exp(ViTv/τ)j=1Nxp(VjTv/τ)p(y_i|x, V) = \frac{exp(V_i^Tv/\tau)}{\sum^N_{j=1} xp(V_j^Tv/\tau)}

, 其中 VV 表示缓存字典,ViV_i 表示第ii类的特征。

定义损失函数如下:

L=j=1Nlog(p(yjxi,V))t(yj)L = -\sum^N_{j=1}\log(p(y_j|x_i, V))t(y_j)

,其中 t(yj)t(y_j) 是类标签上的条件经验分布。设置该分布的概率,若为gt则为1,否则为0。

Model Learning with Softened Similarity

为了找到同一人的图片,本文从每一个数据集中的样本具有最小的dissimilarity的图片中选取图片。其中dissimilarity被定义为两张图片特征的欧式距离。

然后,对于每张训练集中的图片,距离其最近的k张图片被视为可信的图片集 Xreliable={xi1,xi2,...,xik}X^{reliable} = \{x_i^1, x_i^2, ..., x_i^k\}

在训练的过程中,并不是将reliable集中的图像视为同一类,而是采用一种soften分类网络通过一种更光滑的方式以学习到个体之间的相似性。在训练中,本文希望网络不仅可以预测每张图片的gt类别,同时也允许将该图片预测为其reliable类。因此,作者将target label 中的reliable labels 设置为非0值。xix_i 的 target label 分布应该为

其中 λ\lambda 是一个为了平衡gt标签和reliabel标签的超参数。当λ\lambda 比较大的时候,模型就是基础的baseline模型。当λ\lambda比较小的时候,模型可能无法完成对gt的预测。

因此损失函数更改为

L=λlog(p(yjxi,V)1λkj=1klog(p(yijxi,V))L =-\lambda\log(p(y_j|x_i, V) -\frac{1-\lambda}{k}\sum^k_{j=1}\log(p(y_i^j|x_i, V))

Similarity Estimation with Auxiliary Information

Part similarity exploration

常见的分层策略,p个水平层,然后通过平均池化得到part特征。

The cross-camera encouragement

本文也将是否来自于同一个相机作为一种信息纳入两个图片相似度的考虑。按照常理而言,同一个人在不同相机拍摄到的图片相较于其来自于同一相机的图片更不相似,具有更远的距离。因此,当两张图片来自同一个相机的时候,本文引入了一种相机距离,利用该相机距离帮助同一个人来自其他相机的图片有机会进入到reliable 集中。

Overall dissimilarity

最终定义两图片的距离如下:

具体实现

作者采用 ResNet-50 作为 CNN 的 backbone,并且利用在ImageNet上完成预训练的模型进行初始化。其他如下:

实验结果

实验结果待看完近期的无监督ReID论文,会专门写一篇各自方法和效果的对比。

参考文献