【论文阅读】SR-DSFF and FENet-ReID: A Two-Stage Approach for Cross Resolution Person R

127 阅读4分钟

导读

Reid中的存在分辨率的问题,通常来说,query集中分辨率是固定且低的。而gallery集中的分辨率通常是比较高而不会固定,不匹配的分辨率会对reid的结果带来影响。此问题通常叫做跨分辨率问题image.png

简介

文章根据ReID中摄像头不够高清的问题提出了一个二阶段网络来解决。 第一阶段使用一个命名为超分辨率双分辨率特征融合子网络(SR-DSFF)的网络来提高图像清晰度。此网络包含了超分辨率模块(SR)和DSFF模块(双分辨率特征融合) 第二阶段使用FENet-ReID来进行多阶段特征提取和多尺度特征融合。

方法

SR-DSFF

对于开放环境,我们经常面临查询图像分辨率跨度太大的问题,因此我们无法预测一个合适的比例因子来处理任意分辨率的查询图像。文章提到的SR模块就是使用动态Meta-Upscale模块学习卷积核中的权重,然后用于生成SR图像。SR模块由两个模块组成,其中一个是特征学习模块(使用了RDN)和Meta-upscale模块。

image.png

SR-DSFF的输入是一系列低像素图片,在训练阶段获取高像素图片通过下采样。特征学习模块可以学习映射的运作方式,mete-upsacle模块可以把输入的高分辨率图片的每个像素做一个映射到低分辨率图片上。

image.png

但是这样恢复减少的分辨率的过程仍然会丢失部分特征,所以添加了一个DSFF模块,这个模块用来有两个特征(FESLFES^{L}FESsFES^{s})抽取分支分别来抽取低分辨率的图片和超分辨率图片。并且引入了一个注意力通道在其中,它有全局平均池化层和一个全连接层构成,这样可以分支的特征图。

image.png 相加这两个特征图获得最后的特征。

image.png 最后将这个特征输入到最后的转置换卷积层来获得最后的图片。

FEnet——reID

使用姿态识别抽取上一个模块获得的图片中人物的姿态,然后获取他的局部特征和全局特征。文章只选了四个关节点,来获取三个部分,头部、上半身、下半身。FFNET-reid主要有两个模块分别是特征抽取模块(FEM)和特征融合模块(FFM)

FEM

image.png FEM包含了两个卷积阶段,第一个卷积阶段的每个卷积网络中都包含三个卷积层和一个inception模块,第二个卷积阶段。首先,对输入图像进行卷积,得到空间大小为24 × 24的特征图首先,对输入图像进行卷积,得到空间大小为24 × 24的特征图。同时,对行人的三个关键区域进行相同的操作,并进行ROI Pooling操作,以保持得到的特征图大小相同。在第二个阶段,前一阶段得到的4个feature map,通过初始模块将空间大小缩小到12 ×12,然后使用全局池化层和全连接层转换为256维特征向量,输出是4个256维特征向量,分别对应全局图像和3个人类关键区域图像。

FEM

image.png

image.png 为了使最终的行人特征表示更具辨识性,接下来将之前得到的4个256维特征向量融合在一起,生成一个紧凑的256维特征向量。文章采用一个特征融合单元来融合两个相同大小的特征向量。 融合前进行两个操作

  1. 使用元素级最大化操作删除较小值的特征,只保留最大值的特征。
  2. 使用内部积层进行特征变换,其输出可用于后续的特征融合单元。 三个特征融合单元,从左到右依次将行人的下半身和上半身融合为主体,将主体和头部融合为全身,最后将全身和全图像的特征向量融合为最终256维特征最后,在特征F上使用全连接层来预测行人的ID标签。可以用交叉熵损失表示损失,表达式如下

image.png