本文正在参加人工智能创作者扶持计划

在计算机视觉领域，进行目标检测时其检测精度与运行速度是极为重要的指标，这在评估一个系统或者算法的好坏时极具参考价值，也是一代代的目标检测算法更替重在追求的东西。但是，在进行目标检测时，由于现场环境或是拍摄设备等因素，造成的图像模糊使得目标检测的难度进一步加大，那么提前进行图像去噪就显得尤为关键。今天就通过一篇2023年的CVPR论文，带大家了解一下最前沿的图像去雨算法。

论文地址：arxiv.org/pdf/2303.11…

代码地址：github.com/cschenxiang…

什么是DRSformer

基于转换器的方法在图像去雨领域取得了显著的性能，因为该方法可以对非局部位置的信息进行重新建模，这在提高图像质量方面是十分重要的。但是现存的在图像去雨领域的转换器方法，仍然存在一些局限，比如：现有的转换器通常使用来自查询键对的令牌的所有相似性来进行特征聚合，这里很容易出现的问题就是如果查询的令牌与键的令牌之间存在差异，这些令牌估计的自注意值也涉及到特征聚合，从而干扰了清晰图像的恢复。其根源在于：自注意的原生密集计算模式放大了相对较小的相似权值，使得特征交互和聚集过程容易受到隐式噪声的影响。因此，DeRaining network, Sparse Transformer (DRSformer)应运而生，通过实验可以发现，该方法可以自适应地保留最有用自我注意力值以用于特征聚合，从而获得更高质量的图像。主要贡献包括以下几个方面：

开发了一个可学习的top-k算子，以自适应地保留每个查询关键字中的最关键的注意力分数，以便更好地特征聚合；
开发了一个混合尺度前馈网络，以便更好地生成图像去雨化特征；
提出一种合作精细化的去雨方案，为模型装配了混合特征补偿器，以学习混合特征集。

DRSformer方法流程介绍

整体框架

文章所提到的方法图像去雨稀疏转换器网络的整体结构如上图所示，主要包括带有稀疏转换块（STB）、top-k稀疏注意（TKSA）、混合尺度前馈网络（MSFN）和混合专家特征补偿器（MEFC），后面会具体介绍各个模块的功能与作用。

从上述的整体框架可以看出，首先需要输入一幅雨天图像，然后使用一个3×3的卷积层实施重复图像的补丁嵌入操作。在中间的骨干网络中，对四类稀疏转换块进行堆栈，目的是提取出丰富的图像特征；紧接着，编码器-解码器管道的每一层都包含了特定的空间分辨率和通道维度，以展现出雨天图像的多尺度表示；pixel-unshuffle和pixel-shuffle这两种方法被用于特征的上采样和下采样。在每个稀疏转换块（STB）中，文章提出了一种top-k稀疏注意（TKSA）来将特征稀疏化，进而可以实现更高效地特征聚合；文章还提出了混合尺度前馈网络（MSFN），以能够丰富多尺度信息帮助图像进行恢复。从整体框架中，我们还注意到在四类稀疏转换块的前后两端，分别引入了混合专家特征补偿器（MEFC），提供了互补特征更加细节的东西，对重构出高质量的恢复图像依然有积极作用。这种不同模块混合搭配的方案，在利用雨天图像的自适应内容和固有属性的基础上，能够更好地将不需要的雨水条纹与清晰背景分离开来。

经过这样的一个框架处理之后，重构的图像可以表示为：

其中这里的F（）是通过最小化损失函数训练的整体网络结构函数，最小化损失函数的表达式为：

式中，Igt是在真实图像的表示，所以损失函数为处理图像与原始图像之间差值的1范数。

稀疏转换块(STB)

标准的Transformers在计算自我注意力时，会采用所有的令牌进行全局操作，这在图像恢复方面的弊端就是会引进不必要的噪声，因此需要改进。本文提出的方法是利用神经网络中出现的稀疏性的优势，开发了一个稀疏转换块作为特征提取单元。定义式如下：

其中，X（l-1）表示的是第l-1个转换块，它的特征输入是已知的。LN表示的是归一化层；Xl'表示的是top-k稀疏注意（TKSA）的输出；Xl表示的是混合尺度前馈网络（MSFN）的输出。其各自的说明如下。

top-k稀疏注意（TKSA）

该种算子的具体操作流程如下：

应用1×1的卷积和3×3的深度卷积，按照通道来编码上下文；
与传统模型不同的是，这里将自注意力应用到跨通道上，而不是空间维度上，这样可以降低时间和记忆层面的复杂度；
通过计算所有重塑后的查询与键之间的像素对相似度，在转置注意矩阵M中标记出分配了较低注意力权重的不必要元素；然后在矩阵M上实现了对排名前k的贡献分数的自适应选择，以保留最重要的成分而删除掉无用的部分；
注意，这里的k是一个可以调节的参数，能够动态控制稀疏性的程度；而稀疏度的大小在形式上是通过对某些固有分数的加权平均得到的。因此，只有在[△1，△2]的范围内排名前k的值可以从矩阵M的每一行进行归一化，然后参与概率权重计算；
对于那些排名小于前k分数值的元素，这里将它们的概率都置为0，这样的动态选择保证了注意力从密集到稀疏的变化；公式表示为：

其中，Tk是可学习的top-k选择算子，其的表达式如下：

最后，将归一化指数函数与对应的值进行矩阵乘法；在使用多头注意力策略时，文中将多头注意力的所有输出进行串联，然后通过线性投影得到最终结果。

网络结构图如下所示：

混合尺度前馈网络（MSFN）

有事实证明，多尺度的雨纹之间存在着某些相关性，这就使得以往的那些单尺度卷积无法满足需求，因此丰富的多尺度表示就派上了用场。文章通过在传输过程中插入了两条多尺度深度卷积路径，设计了一个混合尺度前馈网络（MSFN），结构如下图所示。

具体的操作流程为：对于给定的输入张量，经过归一化层（LN）之后，首先利用1×1的卷积对其通道维度进行展开，然后分别将它们送入到两个平行的分支中；在特征转换的过程中，分别利用3×3和5×5的两个深度卷积来增强多尺度局部信息的提取。整个特征融合的过程可以表述如下：

式中，σ( )是一个ReLU的激活函数，f分别代表各自的卷积层，[·]则是表示了通道连接。

混合专家特征补偿器(MEFC)

为了提高模型整合稀疏性的综合能力，文章又引入了混合专家特征补偿器(MEFC)，对联合数据和内容稀疏性进行协同探索。本文选择了多个稀疏CNN操作形成了并行层，取名为专家，其中包括接受场为3×3的平均池化层、卷积核大小为1×1、3×3、5×5、7×7的可分离卷积层、以及卷积核大小为3×3、5×5、7×7的扩张卷积层。其结构如下：

与传统的专家组合不同的是，本文提出的MEFC没有附加外部门控网络；相反，这里让自我注意成为不同专家的切换器，根据输入自适应地选择不同表征的重要性。其具体的操作流程如下：

首先给定一个输入特征映射，应用通道平均来生成C维的通道描述Zc，表达式为：

其中Xl-1（i，j）是特征Xl-1的（y，x）位置。
然后，分配每个专家的系数向量，对应于可学习权重矩阵W1和W2。为了避免改变其输入和输出的大小，需要对每个专家计算的输入特征映射进行了零垫。
最后，计算第l个MEFC的输出为：

其中fexp和O分别代表了专家操作和专家数量；fc1×1则表示1×1的卷积；σ( )是一个ReLU的激活函数；[·]则是表示了通道连接。

通过这样的设计，混合专家特征补偿器(MEFC)现在与主要的稀疏转换块(STB)紧密相连，因此能够自适应地消除不同外观的雨天影响。

DRSformer的优势

当出现了无用的特征干扰时，该方法对其的敏感性较低，可以保持相对较好的天然鲁棒性；
不仅可以丰富局部的特征，而且能够增强全局图像的搜索能力；
可以联合探索数据和内容的稀疏性，从而提高图像去雨的效果。

实验结果

与最近的基于Transformer的方法比较

由结果可以看出，本文的方法可以生成具有更精确细节和纹理恢复的高质量图像。

与相关方法的比较

通过比较可以发现，文章所述的方法可以恢复出细节更丰富、清晰度更高的图像。

其他

论文中还提到了其他的，比如其他类似图像去雨的实现细节之类的，但是没有提供对应的模型介绍，所以这里无法展示，感兴趣的可以自己去看一下论文。

图像去雨原理解析 | 读论文