[PaperRead]Skip-Convolutions for Efficient Video Processing

「这是我参与2022首次更文挑战的第23天，活动详情查看：2022首次更文挑战」。

高通AI研究室针对视频任务提出的Skip-Convolution，在计算成本降低3至4倍的同时，几乎没有任何精度下降，思路较为简单，但是实现起来比较复杂。

论文名称：Skip-Convolutions for Efficient Video Processing

作者：Amirhossein Habibian, Davide Abati, Taco S. Cohen, Babak Ehteshami Bejnordi

Code：尚未开源

摘要

提出了Skip-Convlutions来利用视频流中的大量冗余并节省计算，每个视频都被表示为帧间和网络激活的一系列变化，表示为残差的形式。

为了实现在残差帧上高效地计算，重新构造了标准卷积：

每一层都与一个二进制门相结合，决定残差对模型预测是否重要；
这些门既可以与卷积核联合训练，也可以根据残差的重要程度（magnitude）跳过残差；
门控功能还可以结合块稀疏结构（block-wise sparsity structures），这是在硬件平台上高效实施所必需的。

通过将EfficientDet和HRNet中的所有卷积替换为skip-convolution，在两个任务上将计算成本降低了3到4倍，并且没有任何精度下降。

介绍

视频是一系列静止图像还是一系列连续的变化？

我们通过感知变化来观察世界，并在神经元中累积的差异超过某个阈值时处理信息，这一特性启发了许多神经形态传感器和处理算法，比如基于事件的摄像机（event-based cameras）和脉冲神经网络（spiking neural networks）。

尽管脉冲神经网络在视频处理方面很高效，但其缺乏有效的训练算法，因此并没有像传统算法那样成功。

使用残差帧来表示视频也十分常见，比如在视频压缩编解码器中，这是因为残差帧通常拥有较小的信息熵，因此需要压缩的比特数小。

Skip Convolutions

Convolution on Residual Frames

对于一个标准的卷积层，有卷积核 $w\in \mathbb R ^{c_o\times c_i \times k_h \times k_w}$ 和输入 $x_t\in \mathbb R ^{c_in\times h\times w}$ ，其输出可以定义为：

z_t = w *x_t

*表示卷积操作，t表示某一时刻的的特征图

众所周知，卷积是一个线性函数，因此我们可以将输出写为：

\begin{aligned}z_t&=w*x_{t-1}+w*x_t-w*x_{t-1}\\ &=z_{t-1}+w*(x_t-x_{t-1})\\ &=z_{t-1}+w*r_t \end{aligned}

$r_t=x_t-x_{t-1}$ 即表示残差帧，对于第一帧来说 $r_1=x_1-0$ 。

由于视频中连续帧多是高度相关的，因此残差帧通常是稀疏的，如下图所示：

这种稀疏性可以有效地提高网络效率，对于残差帧中0值的部分，其经过卷积的输出依然是0，因此可以直接跳过（skip）。

注意到上图有许多很细小的非0区域（可能是摄像时的光影变化等），这些细小的噪声一定程度上会阻止skip-conv跳过，为了解决这个问题，为每一层skip-conv都引入了一个门控函数 $g:\mathbb R^{c_i\times h\times w}\rightarrow\{0,1\}^{h,w}$ ，为输入特征图预测一个二进制mask来过滤细小的部分，如此，skip-conv被定义为：

\tilde z=\tilde z_{t-1}+g(r_t)\odot(w*r_t)

$\tilde\$ 符号表示 $\tilde z_t$ 是 $z_t$ 的一个近似， $\odot$ 表示逐元素相乘。

Skipping Non-zero Residuals

提出了两个门控函数：

Norm gate：如果残差的残差的范数足够小则选择跳过，norm gate没有任何可训练的参数；
Gumbel gate：其参数和卷积核联合训练。

Norm gate

Norm gate可以定义为：

g(r_t,w,\epsilon)=round\big(\sigma(||w*r_t||_p-\epsilon)\big)

但是这样就需要对每个像素进行卷积，因此提出了一个近似函数：

g(r_t,\epsilon)=round\big(\sigma(||r_t||_p-\epsilon)\big)

该式被称为 Input-Norm gate，这里使用局部卷积操作来代替逐像素计算，具体来说就是对r_t取绝对值，在领域内求和，相当于上式中的p=1

除此之外，考虑了另一种更准确的近似函数，由杨氏不等式可以得到卷积范数的上界：

||f*g||_r\leq ||f||_s\cdot||g||_q,\\ where\ \frac1s+\frac1q=\frac1r+1

通过上式可得：

g(r_t,w,\epsilon)=round\big(\sigma(||w||_p*||r_t||_p-\epsilon)\big)

该式被称为Output-Norm gate，其中卷积核的范数在所有的四个维度上计算，将Input-Nrom gate和Output-Norm gate的p设置为1，所有层共享一致的 $\epsilon$ 。

Gumbel gate

残差帧范数表示帧间发生显著变化的区域，然而并非所有的变化都对最终预测同样重要，比如背景的变化，这一观察结果表明，通过在门控函数内引入一些可训练的参数，可以获得更高的效率，在不影响模型性能的情况下，甚至可以跳过较大的残差。

Gumbel gate使用与对应层参数完全相同的卷积核，输出通道为1，之后使用sigmoid函数获取像素级别的伯努利分布，训练期间从伯努利分布中抽取二元决策样本，在推理时则进行取整：

g(r_t,\phi_l)=\left\{\begin{aligned} &\sim Bern(\sigma(f(r_t;\phi_l)))\qquad at\ training,\\ &=round(\sigma(f(r_t;\phi_l)))\qquad at\ inference \end{aligned}\right.

采用Gumbel重新参数化和直通梯度估计器，以便采样过程进行反向传播。通过最小化 $L_{task}+βL_{gate}$ ，使得门控参数与所有模型参数共同学习。超参数 $\beta$ 平衡了 $L_{task}$ 测量的模型精度与 $L_{gate}$ 测量的模型效率。我们将门控loss定义为处理T个连续帧所需的平均乘法累积（MAC）：

L_{gate}(\phi_1,\cdots,\phi_L)=\frac1{T-1}\sum_{t=2}^T\sum_{l=1}^Lm_l\cdot\mathbb E[g(r_t;\phi_l)]

乘积累加运算的操作是将乘法的乘积结果和累加器 A 的值相加，再存入累加器。 L是网络中的层数， $\mathbb{E}[\cdot]$ 表示空间位置上的平均值，系数 $m_l$ 表示第l和卷积层的MAC的数量（这里可能是为了一定程度上限制门控函数进行过多的运算了，来达到提高效率的作用）。与递归网络类似，在固定长度的帧序列上训练模型，并对任意数量的帧进行迭代推理。

Structured Sparsity

与稀疏卷积类似，Skip-Conv的有效实现需要特征图中的块结构稀疏性（block-wise structured sparsity），主要原因有两个：

利用块结构可以减少输入和输出张量的收集和分散所涉及的内存开销；
此外，许多硬件平台在小patch（例如8×8）上分布执行卷积。

通过简单地在门控函数添加下采样和上采样函数，可以扩展Skip- Conv以生成结构化稀疏性。具体来说，作者添加了一个最大池层，kernel size和stride为b，接一个最近邻上采样，其比例因子为b。这使得预测的门具有b×b结构，如下图所示：

尽管分辨率显著降低，但消融实验证明与非结构化门控相比并不会损失性能，因此，结构化稀疏性是对性能影响最小的情况下实现更高效的关键。

Runtime speed up

通过研究MAC数量的减少来衡量理论加速是如何转化为实际加速的，作者使用了基于im2col的稀疏卷积实现，im2col将卷积运算转换为两个矩阵的矩阵乘法，对于稀疏卷积，乘法只在非稀疏列进行，其他列中直接填0。使用HRNet-w32在CPU上进行实验，结果如下：

实际运行的速度提升约为理论速度提升的一半（理论速度提升即为MAC的减小量），这是因为MAC不计入稀疏卷积核的内存开销，并且实际运行速度和理论速度可以通过高度优化的CUDA进一步缩小。

思考

本文的idea确实是很简单，只处理帧与帧之间的相差的部分，但是对于视频来说，不同时刻的光影等都会造成这种相差，因此提出了门控函数来选取真正重要的部分，另一方面注意到残差帧的稀疏性，提出了结构化稀疏和使用稀疏卷积进一步提高效率,，此外还提出了新的loss通过计算数量来约束模型的轻量化。

但是skip-conv的缺点也是显而易见的，当摄像机剧烈晃动或者背景变化剧烈时，其表现应该不会很好（或许会退化为标准卷积？），为了应对这一点显然需要更多的工作，或许训练时增加足够的数据增强可以一定程度上得到缓解。

[PaperRead]Skip-Convolutions for Efficient Video Processing

摘要

介绍

相关工作

Efficient video models

Efficient image models