【论文学习】RGBT-CCCross-Modal Collaborative Representation Learni

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting

简介

传统的人群计数仅使用RGB图像中的光学信息来计算人数容易受到各类干扰，而RGBT-CC发现热成像图片可以极大地帮助从杂乱的背景中区分潜在的行人，如图1所示：

为了方便多通道人群计数，RGBT-CC引入了一个跨通道协作表示学习框架，它包含多个特定于模式的分支、一个模式共享的分支和一个信息聚合分布模块（Information Aggregation-Distribution Module, IADM），具体地说：

一个信息聚合转发器，它动态聚合所有特定于模式的特性的上下文信息，以增强模式共享特性；
一个信息分布转发器用来传播模态共享信息，对称地细化每个模态特定的特征，以便进一步进行表征学习。

RGBT-CC有三个特点：

由于双向信息传播机制，IADM可以有效地捕捉多模态互补，方便人群计数任务；
IADM作为即插即用模块，可以方便地集成到各种骨干网中进行端到端优化；
该框架是一个通用的多模态人群计数框架。

Benchmark

目前还没有用于人群计数的公共RGBT数据集，为了促进这一领域的进一步研究，论文提出了一种大规模的RGBT人群计数(RGBT-CC)基准，链接

首先使用光学热成像相机在各种场景(如商场、街道、操场、火车站、地铁站等)拍摄大量RGB热成像图像，由于电子传感器类型的不同，原始RGB图像的高分辨率为2,048×1,536，视野更宽，而热成像图像的标准分辨率为640×480，视野更小。在坐标映射关系的基础上，裁剪相应的RGB区域并将其大小调整为640×480。

选择2,030对具有代表性的rgb热图像用于手动注释。在这些样本中，有1013对是在光照下捕获的，1017对是在黑暗中捕获的。总共有138,389名行人被标记为点注释，平均每张图像有68人，具体分布如图2所示。

研究内容

用于多模态人群计数的跨模态协同表示学习框架的架构如图3所示：

RGBT人群计数框架由三个并行的骨干和一个IADM（信息聚合分布模块）组成。具体来说，上下骨干是为特定于模态(即RGB图像和热成像图像)的表示学习而开发的，而中间骨干是为模态共享的表示学习而设计的。为了充分利用多模态的互补性，IADM动态地传递特定共享信息，协同增强特定模态和模态共享表示。因此，最终的模态共享特征包含了全面的信息，便于生成高质量的人群密度地图。

给定一个RGB图片 $R$ 和一个热成像图片 $T$ ：

首先将它们输入不同的分支，以提取特定模态的特征，用以维持单个模态的特定信息。
模态共享分支取一个零张量作为输入并且分层聚合特定模态的特征。
每个分支都是使用CSRNet实现的，它由一个前端块（VGG16的前十个卷积层）和一个后端块（六个空洞卷积层，dilated convolutional layers）组成。

特定模态的分支基于CSRNet前端块，而模态共享分支基于CSRNet最后14个卷积层。文章中，后端块中的第 $j$ 个空洞卷积层被命名为“Conv5_j”，RGB图像、热成像图像和模态共享特征在Convi_j层被定义为 $F^{i,j}_r,F^{i,j}_t,F^{i,j}_s$ 。

提取特征后使用信息聚合分布模块IADM来学习跨模态协同表示，为了分层地利用多模态信息，IADM是在不同的层之后嵌入的，如图中的Conv1_2,Conv2_2,Conv3_3,Conv4_3。

在Convi_j层后，IADM动态地在特定模态特征和共享模态特征之间传递互补信息，实现相互增强。这个过程可以表述为:

\hat{F}^{i,j}_r,\hat{F}^{i,j}_t,\hat{F}^{i,j}_s=IADM(F^{i,j}_r,F^{i,j}_t,F^{i,j}_s)

显然 $\hat{F}^{i,j}_r,\hat{F}^{i,j}_t,\hat{F}^{i,j}_s$ 是增强后的特征值，这些特性被送入每个分支的下一层，以进一步学习高级多模态表示。

最后一个模态共享特征 $F^{5,6}_s$ 包含丰富的信息，将其输入一个 $1\times 1$ 的卷积层中用于预测人群密度图 $M$ 。

协同表示学习

RGB图像和热成像图像是高度互补的，IADM可以充分利用其互补性通过一种双向信息传播机制来学习跨模态表示，IADM与两个协同转发器集成在一起，动态传播上下文信息，以相互增强特定于模式的表示和模式共享的表示：

上下文信息提取

使用一个L-level pyramid pooling layer提取给定特征的上下文信息 $F^{i,j}\in R^{h\times w\times c}$ ，在第 $l(l=1,..,L)$ 级，应用一个 $2^{l-1}\times 2^{l-1}$ 最大池化层来生成一个 $\frac{h}{2^{l-1}}\times \frac{w}{2^{l-1}}$ 特征，然后通过最近邻插值向上采样到 $h \times w$ 。

上采用特征表示为 $F^{i,j,l}$ ，特征 $F^{i,j}$ 的上下文信息 $I^{i,j}\in R^{h\times w\times c}$ 表示为：

I^{i,j}=Conv_{1\times 1}(F^{i,j,1})\oplus ...\oplus Conv_{1\times 1}(F^{i,j,L})

$\oplus$ 表示一个特征拼接的操作。

信息聚合转达器 IAT

IAT用于聚合所有特定模态特征的上下文信息，以增强模态共享特征。如图4（a）所示，IAT不是直接吸收所有信息，而是通过一个自适应过滤有用信息的门控机制动态地传输补充信息。

具体的说，对于给定特征 $F^{i,j}_r,F^{i,j}_t,F^{i,j}_s$ ，首先提取其上下文信息 $I^{i,j}_r,I^{i,j}_t,I^{i,j}_s$ ，然后通过计算 $I^{i,j}_r,I^{i,j}_t$ 和 $I^{i,j}_s$ 的差值得到两个残差信息 $I^{i,j}_{r2s},I^{i,j}_{t2s}$ 。最后使用两个门函数，自适应传播互补信息以细化模态共享特征 $F^{i,j}_s$ ，增强后的特征 $\hat{F^{i,j}_s}$ 的计算公式如下所示：

其中 $w^{i,j}_{r2s},w^{i,j}_{t2s}$ 是两个门权重， $\odot$ 表示按元素进行乘法的一种操作。

注意：模态共享分支取一个零张量作为输入，当输入为0时，上面的公式会简化为：

\hat{F}^{1,2}_s=I^{1,2}_r\odot conv_{1\times 1}(I^{1,2}_r)+I^{1,2}_t\odot Conv_{1\times 1}(I^{1,2}_t)

即，直接聚合RGB和热成像图像的特征信息生成初始模态共享特征。

信息分布转发器 IDT

在信息聚合后，通过分配新模特共享特征信息来分别细化每个特定模特的特征。如图4（b）所示，使用增强后的特征 $\hat{F^{i,j}_s}$ ，首先提取其对应的上下文信息 $\hat{I^{i,j}_s}$ ，然后动态得将其传播到 $F^{i,j}_r,F^{i,j}_t$ 。和IAT相似用两个门函数来过滤信息，增强后的特定模态特征计算方法如下所示：