【论文阅读】AANet: Attribute Attention Network for Person Re-Identifications

2,083 阅读4分钟

导读

原文:openaccess.thecvf.com/content_CVP…

代码:暂无

通过行人的属性来进行reid是目前主流的方法之一,什么是属性信息? 衣服颜色、头发、背包等基于物理外观的信息。属性并非预先定义作为辅助训练,是通过分顶中底层提取局部特征的方式让网络学习到该区域的属性,用于后续的辅助预测。 本文将注意力机制和属性信息结合,利用图像的全局信息、局部信息、属性信息完成行人重识别。

简介

本文提出了一个新的体系结构——属性注意网络(AANet),此分类结构可以将人的属性和属性注意力继承到一个分类框架中,以此来解决重识别问题。

image.png 热图对应6种属性,如头发、上衣颜色、下身颜色等。

方法

本文的方法主要有三个部分组成,分别是全局特征网络(GFN),根据输入查询图像进行全局身份(ID)分类;局部特征网络(PFN),专注于局部特征的检测;第三种是属性特征网络(AFN),从人员属性中提取类感知区域,生成属性注意图。

image.png

每个部分都需要用到resnet50来抽取特征,用这些特征作为输入。

全局特征网络GFN

从Resnet50抽取的特征经过一层全局池化后依次经过1×11 \times 1的卷积层、批量归一化和Relu,最后经过softmaxsoftmax线性变化。(图中的z、v、c分别是每次变化后的通道数)。用交叉熵作为损失函数。

局部特征网络PFN

身体部分检测器将特征映射成六个水平部分,并估计相应的感兴趣区域。被划分的之后的部分会进行类似与GFN那样的操作。

image.png

属性特征网络AFN

AFN是本文方法的关键,其包含了两个子任务,一个是属性分类(AC),另一个是属性注意力图生成(AAM)。第一个子任务对个体属性进行分类。第二个子任务利用第一个子任务的输出,并为每个属性生成类激活映射(CAM)。

CAM是什么?

​ Learning Deep Features for Discriminative Localization,2016 CVPR

​ 是一种即使网络仅在图像级标签上训练也能定位区分图像区域的技术

属性分类AC

在DuketMTMC-reID和Market1501上分别有10和12个带注释的属性。AFN的第一层是1x1卷积,它将特征图X的通道深度从Z减小到v。接下来,我们将特征图划分为三个不同的集合,分别是Top、Middle和Bottom特征图,每个特征图负责从各自的局部区域提取特征基于部分的建模可以减少背景杂波,提高分类精度。不同的部分关注不同的属性。例如,Top特征地图用于捕捉帽子、头发、袖子和上衣颜色等特征。来自身体下半部分的特征在Top特征图中被忽略。如图5所示,将这些特征图的输出与全局特征图进行平均汇聚,在v层产生4个特征向量。这4个向量是全连接层c的输入。在Market1501上,C层有4个分类器,每个分类器生成自己的属性预测。 image.png

属性注意图AAM

此部分的输入是ac的输出。AAM结合了来自单个属性的类敏感激活区域。使用CAM从每个人属性提取这些单独的类敏感激活区域。如前所述,CAM使用GAP,经过少许调整,生成带有判别特征的图像区域。因此,CAM的输出显示了表示该属性的图像区域。通过最大值操作合并各个类别特定的激活区,并执行自适应阈值,阈值过程去除了有时出现在类特点激活区内的一些背景区域。AAM在定位属性信息不同的区域时更具特异性。

image.png

损失定义

损失函数为:

image.png 其中LgLpLaLaaL_{g}、L_{p}、L_{a}、L_{aa}分别代表全局、局部、属性、属性注意力损失。 σgσpσaσaaσ_{g}、σ_{p}、σ_{a}、σ_{aa}分别代表全局、局部、属性、属性注意力的噪声。

实验结果

image.png