arxiv 2020
Ruoteng Li,Xiaoyi Zhang,Shaodi You,Yu Li
简介
文章制作了一个来自3D视频的户外场景的数据集,根据其3D信息得到相应的深度信息。并且提出了一个轻型网络,以能够在移动设备上实时运行。
Motivation
当前的大多的合成数据集都在室内,缺乏相应的具有准确深度的室外环境的数据集。文章提出了关于数据驱动的去雾算法的两个重要问题:
- 缺乏大型,高质量,真实的数据集。尤其是在室外环境中,并且具有一定的环境复杂度,具备GroundTruth。
- 可以实时工作并且应用在户外动态场景中,例如自动假设,无人机,水下机器人等等。
文章表示,与高级视觉任务不同,去雾这种低级视觉任务需要获得逐像素准确的数据。 并且在过去的算法中,大部分算法的网络规模非常大,无法应用于户外的可移动设备。并且大多数现有的网络都以3FPS工作或者更低。
Model
文章提出的网络主要设计为简单并且能够为移动设备所实时使用,故对网络的大小和运算速度有一定的要求。 网络的第一阶段Physics-Based Stage目标在于得到A和t的结果,并结合大气散射模型估算J。 网络的第二阶段Model-Free Stage目标在于细化J的结果,并辅以对抗式生成网络。 文章表示,之所以使用两阶段网络,是因为大气散射模型是真实雾场景的近似表示,可以提供一定的信息。但由于是近似表示,所以添加了第二阶段的网络,即物理模型自由网络,不借助任何模型,不受大气散射模型的约束。
文章使用了,
,
损失。
数据和训练
数据集
文章提出的去雾数据集总共包含2000张清晰干净的无雾图像,其分辨率均为1920*1080。在每张无雾图像上生成5个不同传输图以获得1W张有雾图像,并将其中8000张作为训练集,其余2000张作为测试集。
这些清晰干净的无雾图像是来自多视图立体摄像机拍摄的BlueRay视频,一共22个视频,总时长约40小时。这些高质量的3D视频包括好莱坞电影和科学纪录片。
由于缺乏拍摄时的焦距,立体摄像机基线,摄像机固有参数等等信息,因此难以使用现有的立体声估计算法。文章使用光流估计方法作为代替。
在得到深度信息后,根据大气散射模型合成相应的数据。其中,大气光值根据以下公式:
即每个通道取其像素最大值。
训练设置
- 使用权重衰减为
的Adam优化器
- 初始学习率为0.001
- 每10轮学习率除以2
- 一共训练50轮
对比和测试
测试指标
- PSNR
- SSIM