【论文阅读】Depth-Aware Video Frame Interpolation作者针对这两点进行了优化，并达到了

项目主页：sites.google.com/view/wenbob…
项目Git：github.com/baowenbo/DA…
论文地址：arxiv.org/pdf/1904.00…

简介

近年来基于深度学习的视频插帧成为了计算机视觉的研究方向之一，视频插值主要一般会用于一下几个方面：

慢动作视频生成（slow-motion）
视角合成（view synthesis）
视频码率提升（frame rate up-conversion）

首先作者分析了近年来的深度学习网络在应对视频插值任务时所遇到的主要问题和瓶颈，主要有两点:

无法处理大规模运动场景（large motions）
只有隐式的（implicitly）或干脆没有处理遮挡区域填充问题（occlusions）

作者针对这两点进行了优化，并达到了目前state-of-art的效果。这篇文章是作者团队基于其在2018年发表的论文MEMC-Net做的改进，下面来研究研究作者都做了哪些工作。

算法流程

先来看下整个算法的流程图：

可以看到用到了几个部分：光流、深度、上下文特征、插值kernel等等，下面来分别看下每个部分。

光流

作者在文章中提出了两种根据光流warp原图的方式：

根据光流 $F_{0\rightarrow1}$ 和时间 $t$ 计算出 $I_0$ 到 $I_t$ 的光流 $F_{0\rightarrow t}$ 并正向warp输入图 $I_0$ ，这种操作会造成遮挡区域的空洞问题，也就是前景移走了之后背景没有内容来填充，对于 $I_1$ 同理。
根据光流 $F_{0\rightarrow1}$ 和时间 $t$ 计算出 $I_t$ 到 $I_0$ 的光流 $F_{t\rightarrow0}$ ，也就是说，如果0时刻像素 $y$ 的光流 $F_{0\rightarrow1}(y)$ 在 $t$ 时刻穿过像素 $x$ ，则 $F_{t\rightarrow0}(x)$ 可以近似为 $-tF_{0\rightarrow1}(y)$ ，同理 $F_{t\rightarrow1}(x)$ 可以近似为 $-(1-t)F_{1\rightarrow0}(y)$ 。
对于 $t$ 时刻的每一个像素点寻找其在图像 $I_0$ 上的位置，也就是做反向warp，这种不会出现空洞问题，但是会引入一些新问题，后面会提到。

深度 x 光流

如上图所示，在0时刻的像素 $y_1$ 和像素 $y_2$ 根据各自的光流运动，得知他们在 $t$ 时刻经过像素 $x$ ，那么像素 $x$ 的反向光流 $F_{t\rightarrow0}(x)$ 便可以由 $-tF_{0\rightarrow1}(y_1)$ 和 $-tF_{0\rightarrow1}(y_2)$ 经过计算近似得出。
在过去的网络模型中，此时的光流融合大多是采用的是计算平均值的方式，也就是图中的绿色向量。但是这种计算方法无法处理遮挡区域的问题，例如如果前景像素和背景像素运动到同一个位置，合成出的结果应该是前景像素占更大比重。

由此作者提出了一种使用深度辅助来计算 $t$ 时刻的光流融合结果。融合的权重使用的是深度值的倒数，简单的来说就是深度值越大的像素（距离越远的像素），在光流合成的时候所占的权重越小。

作者同时提出，当没有任何光流向量在 $t$ 时刻经过像素 $x$ 时，则会在 $x$ 周围四连通邻域寻找有光流穿过的像素，并对它们求平均，得出 $x$ 位置的光流。

上下文特征

作者提出，在CtxSynNet论文中已经证明上下文信息（contextual feature）的加入对视频插值有一定帮助，这里的上下文信息我理解为浅层的、全局的图像特征，作者所举的例子是ResNet中经过第一个7x7 convolution layer之后的feature maps可以作为上下文特征。