Learning to Dehaze From Realistic Scene with A Fast Physics Based Dehazing Netwo

420 阅读3分钟

arxiv 2020

Ruoteng LiXiaoyi ZhangShaodi YouYu Li

简介

文章制作了一个来自3D视频的户外场景的数据集,根据其3D信息得到相应的深度信息。并且提出了一个轻型网络,以能够在移动设备上实时运行。

Motivation

当前的大多的合成数据集都在室内,缺乏相应的具有准确深度的室外环境的数据集。文章提出了关于数据驱动的去雾算法的两个重要问题:

  • 缺乏大型,高质量,真实的数据集。尤其是在室外环境中,并且具有一定的环境复杂度,具备GroundTruth。
  • 可以实时工作并且应用在户外动态场景中,例如自动假设,无人机,水下机器人等等。

文章表示,与高级视觉任务不同,去雾这种低级视觉任务需要获得逐像素准确的数据。 并且在过去的算法中,大部分算法的网络规模非常大,无法应用于户外的可移动设备。并且大多数现有的网络都以3FPS工作或者更低。

Model

文章提出的网络主要设计为简单并且能够为移动设备所实时使用,故对网络的大小和运算速度有一定的要求。 网络的第一阶段Physics-Based Stage目标在于得到A和t的结果,并结合大气散射模型估算J。 网络的第二阶段Model-Free Stage目标在于细化J的结果,并辅以对抗式生成网络。 文章表示,之所以使用两阶段网络,是因为大气散射模型是真实雾场景的近似表示,可以提供一定的信息。但由于是近似表示,所以添加了第二阶段的网络,即物理模型自由网络,不借助任何模型,不受大气散射模型的约束。

文章使用了L_2VGG,GAN损失。

数据和训练

数据集

文章提出的去雾数据集总共包含2000张清晰干净的无雾图像,其分辨率均为1920*1080。在每张无雾图像上生成5个不同传输图以获得1W张有雾图像,并将其中8000张作为训练集,其余2000张作为测试集。 这些清晰干净的无雾图像是来自多视图立体摄像机拍摄的BlueRay视频,一共22个视频,总时长约40小时。这些高质量的3D视频包括好莱坞电影和科学纪录片。 由于缺乏拍摄时的焦距,立体摄像机基线,摄像机固有参数等等信息,因此难以使用现有的立体声估计算法。文章使用光流估计方法作为代替。 在得到深度信息后,根据大气散射模型合成相应的数据。其中\beta \in [1.0,3.0],大气光值根据以下公式:

A_C=\max_{x\in I}C(x),C=R,G,B

即每个通道取其像素最大值。

训练设置

  • 使用权重衰减为10^-4的Adam优化器
  • 初始学习率为0.001
  • 每10轮学习率除以2
  • 一共训练50轮

对比和测试

测试指标

  • PSNR
  • SSIM

指标对比

结果展示