【ReID】ABD-Net: Attentive but Diverse Person Re-Identification

1,002 阅读6分钟

2019 ICCV的一篇SOTA,文章[1]提出了多样专注网络Attentive but Diverse Network,ABD-Net(真是个不羁放纵爱自由的名字呢╮(╯▽╰)╭)。ABD-Net主要包含了注意力模块(attention module)和多样性正则化/频谱值差分正交正则化(Diversity Regularization/spectral value difference orthogonality (SVDO))两个部分,其旨在结合注意力模块和多样性作为相互补充的机制,共同提高ReID表现。通过在多个benchmark上的验证,ABD-Net证明了这个设计的成功,并达到了新的SOTA。

论文一览:

源码:

github.com/VITA-Group/…

痛点

1)作者提出,基于注意力机制的模型倾向于更高相关性特征,或者说注意力机制倾向于使特征专注在更紧凑地子空间中(比如对比整张图,图1中的前景),低特征相关性不能天然地被注意力模型所保证。而前人工作使用注意力机制提取基于空间模式的局部特征,导致特征常常关注图像前景,忽视了低相关性特征。

2)一般权重的正交性施加严格的约束经常使用SVD(奇异值分解)。这些常用的基于SVD的硬正交约束在计算上成本很高,这将限制了模型学习的灵活性。

因此作者提出了结合attention module和SVDO regularization的ABD-Net,其中ABD-Net的attention module结合了空间和通道信息,提取的attention mask可直接从数据和上下文中学习,而无需依赖手动定义的零件,零件区域建议或姿势估计,而SVDO regularization通过直接约束Gram矩阵的条件数,约束可以避免过度关联和冗余的注意力特征。

模型

1 注意力模块 Attention Module

ABD-Net的attention模块包括Channel Attention Module(CAM) and Position Attention Module (PAM)。

类似于Dual Attention Network for Scene Segmentation[2]中的channel attention,其中CAM结构如下图2:

CAM分4路最下路为残差连接,上3路将(C,H,W)/(channel,height,width)的张量reshape成了(C,N(N=H*W))的matrix,其中最上路对(C, N)转置为(N,C),被第二路的(C,N)matrix点乘,得到(C,C)的matrix,经过softmax得到attention的概率图X,与第三行的(C,N)matrix进行elementwise multiplication,至此attention mask的施加完成,将得到的(C,N)的matrix重新reshape成(C,H,W),与原输入残差连接,如下式,CAM结束。

其中γ为CAM的权重因子。

Position Attention Module (PAM)结构如下图3:

输入经过convolution,BN和ReLU得到B,C,D。与CAM非常相似的,第一行和第二行reshape成(C,N),第一行转置为(N,C),后二者做点积,这次得到的是(N,N)的matrix,经过softmax得到attention的概率图S,对第三行的(C,N)的matrix施加,得到(C,N)matrix,reshape回(C,H,W),经过残差链接,PAM结束。

其中关于S和X的区别,看似只是矩阵乘积换了位置,实际S计算的是总的N个像素之间(spatial)的相关性,而X计算的是不同C之间(channel)的像素相关性,这是不一样的。

2 正交正则化 Orthogonality Regularization

作为得到特征多样性的补充,文章提出了正交正则化Orthogonality Regularization/Diversity Regularization/spectral value difference orthogonality (SVDO),其包括特征空间正交正则化Orthogonality regularizer on feature space(简称O.F.),和权重正交正则化The orthogonal regularizer on weight (O.W.)。O.F.用于减少使得直接匹配获益的特征相关性,O.W.用于鼓励卷积filter的多样性和学习能力。

对输入的feature map MRC×H×WM\in \mathbb{R}^{C\times H\times W},使其reshape成FRC×NF\in \mathbb{R}^{C\times N},这时候很多硬正交约束会使用SVD,但是SVD计算成本过高。这时候就有许多的软正则化函数通过限制F的Gram矩阵接近Frobenius范数下的恒等矩阵,这样可以避免SVD,且保持可微。但是由于矩阵的秩不足,可能会使F无法满足这一恒等性,从而使这些正则化方法出现偏差。

因此文章引入了基于频谱范数的正则化器(regularizer),可有效减轻偏差。

文章通过直接正则化协方差矩阵FFTFF^{T}的条件数来施加正交性,如下式(3):

其中k(F)为条件数(F的最大奇异值与最小奇异值之比,反应矩阵的奇异程度),β为系数.由于计算k(F)需要进行SVD分解,为了避免这个事咧,文章将式(3)转化为了频谱值差分正交性(SVDO)正则化,如下式(4):

其中λ1(FFT)\lambda_{1}(FF^{T})λ2(FFT)\lambda_{2}(FF^{T})分别为FFTFF^{T}的最大和最小特征值。

在梯度下降训练过程中,作者使用自动微分方法来得到SVDO的梯度,但是目前为止,该过程仍然需要求计算负担很重的特征值分解,为避免此过程,文章使用幂迭代法(power iteration)来求得近似特征值。随机一个q值,然后迭代计算(5)式(默认2次):

经过这些修改,整个计算过程都会变得高效。

3 ABD-Net总网络

ABD-Net总结构示意图如下图4:

backbone还是ResNet50,文章在ResNet50基础上,在res_conv2输出处加入CAM和O.F.,在res_conv1到res_conv5的所有conv layers中加入O.W.。网络res_conv4之后令网络分为两支路,如图4,上路为attention branch,下路为global branch,

attention branch照搬了ResNet50的res_conv5,输出的feature map经过一个reduction layer(包含linear layer,BN,ReLU和dropout,还使用了O.F.)得到比较小的feature map,然后分别个CAM和PAM(均使用了O.F.),他们的输出和reduction layer的输出进行堆叠,给global average pooling,attention branch结束。

在global branch,经过res_conv5(两个branch的res_conv5都去掉了down-sampling layer,将输出更大的feature map)后输出给global average pooling+reduction layer,得到vector,global branch结束。

两路branch的输出最终将堆叠到一起,作为最后的feature进行求loss。ABD-Net的loss为:

其中LO.F.L_{O.F.}LO.W.L_{O.W.}为SVDO惩罚项,而β为超参数调节不同loss的比重。

实验

在Market1501和Duke的分离实验如下:

其中XE为使用ResNet50+cross entropy loss的baseline配置。SVD layer是类似于SVD-Net[3]的正则化方式对照组。

在Market的SOTA实验如下:

在Duke的SOTA实验如下:

在MSMT17的SOTA实验如下:

注意力热图可视化结果如下:

相关矩阵的可视化如下:

可以看到注意力将feature embedding带到高相关性,而多样性减小了冗余并进一步提高了判别力。

相关性直方图:

tSNE可视化如下:

检索结果实例如下:

写作

写作写得很好,文章结构比较清晰,从ABD-Net到下辖的两个部分:attention module和spectral value difference orthogonality (SVDO) Regularization,都做了全面的对相关痛点的阐述和本文工作的优势。

比如写spectral value difference orthogonality (SVDO) Regularization的内容就包括:

“orthogonality constraint”;

“is applied to both activations and weights, and is shown to effectively reduce learned feature correlations.”;

“efficiently enforces diversity on both hidden activations and weights.”;

“our added diversity constraint will avoid the overly correlated and redundant attentive features.”;

“the gram matrix for an overcomplete F cannot reach identity because of rank deficiency, making those regularizers biased.hence introduced the spectral norm-based regularizer that effectively alleviates the bias.”;

参考文献

[1] Chen T, Ding S, Xie J, et al. ABD-Net: Attentive but Diverse Person Re-Identification[C]. international conference on computer vision, 2019: 8351-8361.

[2] Fu J, Liu J, Tian H, et al. Dual Attention Network for Scene Segmentation[C]. computer vision and pattern recognition, 2019: 3146-3154.

[3] Yifan Sun, Liang Zheng, Weijian Deng, and Shengjin Wang. Svdnet for pedestrian retrieval. 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017.