Learning to Dehaze From Realistic Scene with A Fast Physics Based Dehazing Netwo

arxiv 2020

Ruoteng Li，Xiaoyi Zhang，Shaodi You，Yu Li

简介

文章制作了一个来自3D视频的户外场景的数据集，根据其3D信息得到相应的深度信息。并且提出了一个轻型网络，以能够在移动设备上实时运行。

Motivation

当前的大多的合成数据集都在室内，缺乏相应的具有准确深度的室外环境的数据集。文章提出了关于数据驱动的去雾算法的两个重要问题：

缺乏大型，高质量，真实的数据集。尤其是在室外环境中，并且具有一定的环境复杂度，具备GroundTruth。
可以实时工作并且应用在户外动态场景中，例如自动假设，无人机，水下机器人等等。

文章表示，与高级视觉任务不同，去雾这种低级视觉任务需要获得逐像素准确的数据。并且在过去的算法中，大部分算法的网络规模非常大，无法应用于户外的可移动设备。并且大多数现有的网络都以3FPS工作或者更低。

Model

文章提出的网络主要设计为简单并且能够为移动设备所实时使用，故对网络的大小和运算速度有一定的要求。网络的第一阶段Physics-Based Stage目标在于得到A和t的结果，并结合大气散射模型估算J。网络的第二阶段Model-Free Stage目标在于细化J的结果，并辅以对抗式生成网络。文章表示，之所以使用两阶段网络，是因为大气散射模型是真实雾场景的近似表示，可以提供一定的信息。但由于是近似表示，所以添加了第二阶段的网络，即物理模型自由网络，不借助任何模型，不受大气散射模型的约束。

文章使用了 $L_2$ ， $VGG$ , $GAN$ 损失。

数据和训练

数据集

文章提出的去雾数据集总共包含2000张清晰干净的无雾图像，其分辨率均为1920*1080。在每张无雾图像上生成5个不同传输图以获得1W张有雾图像，并将其中8000张作为训练集，其余2000张作为测试集。这些清晰干净的无雾图像是来自多视图立体摄像机拍摄的BlueRay视频，一共22个视频，总时长约40小时。这些高质量的3D视频包括好莱坞电影和科学纪录片。由于缺乏拍摄时的焦距，立体摄像机基线，摄像机固有参数等等信息，因此难以使用现有的立体声估计算法。文章使用光流估计方法作为代替。在得到深度信息后，根据大气散射模型合成相应的数据。其中 $\beta \in [1.0,3.0]$ ，大气光值根据以下公式：