拯救你的模糊照片———基于深度学习的图像去模糊算法

1,274 阅读8分钟

一、引言

由于各种不确定因素的影响,我们通过设备采集到的图像难免会产生不同程度的失真,通常将这些失真统称为图像退化。图像的运动模糊就是一种典型的图像退化现象。图像运动模糊是指图像中的移动效果,通常会出现在长时间曝光或被拍摄物体移动太快的情况下,由于拍摄时相机与物体之间发生了相对位移,图像上就会出现运动模糊。但是去模糊本身是个ill-posed问题,以致于传统方法中做去模糊之前首先要做出一些假设,包括假设模糊是均匀的、模糊是仅由相机运动产生的、模糊是局部线性的等等,这些假设在很大程度上影响预测结果的质量,因为真实的模糊是非均匀的,真实的模糊是非线性的,真实模糊产生的方式多种多样。本文将简单介绍一种基于深度学习的图像去模糊算法。

1.png

2.png

                                   图片fig 1.图像去模糊

二、研究现状

随着数值计算设备的改进,深度学习技术快 速发展. 卷积神经网络具有良好的容错和自学能力, 在样本数据存在一定缺损的情况下,它可以处理图像 模 糊 、背景信息复杂等情况的模式识别问题。 因此 ,在图像去模糊算法中卷积神经网络算法具有优势[1]。模糊图像一般被看作由清晰图像卷积模糊核得到,文献[2]提出了单独估计模糊核的方法;文献[3]基于该方法结合贝叶斯最小均方误差采样算法进行反卷积,去除图像的运动模糊;文献[4]使用基于最大后验估计的盲去模糊模型处理模糊车辆图像。上述方法能够在一定程度上去除噪声,增强细节,有效改善运动模糊图像的质量,但对于未知模糊核的运动模糊图像,它们需要进行复杂的计算来估计模糊核,从而使模型计算开销增大,响应时间变长,一旦模糊核估计错误还会影响图像处理的质量,出现振铃伪像。

三、基于生成对抗网络去除图像运动模糊模型

3.1、生成对抗网络

模型的基本框架如fig 2所示。模糊图像B经生成器G得到生成图像G(B),判别器D以清晰图像S和生成图像G(B)作为输入得到一个概率值表示置信度, 置信度表示生成图像G(B)是清晰图像 S 的概率,以此来判断生成器G的性能优劣。生成器G的目标是尽量生成真实的图像去欺骗判别器D,而判别器D的目标是尽量把G生成的图像与清晰图像区分开,当判别器D无法区分清晰图像S和生成图像G(B)时,认定此时生成器G的性能达到最优。

3.png

3.2、生成器模型

生成器的模型包含3层网络结构,由粗糙到精细。为了在保留精细级别信息的同时利用粗糙级别的信息,网络采用高斯金字塔的形式,更精细级别的去模糊由较粗级别的特征辅助,由粗到精级别的网络分别由不同分辨率的图像作为输入。生成器模型结构fig 3所示。在生成器模型中,本文引入了多尺度递归网络。该网络以 3 个不同尺寸的模糊图像作为输入,输出去模糊后的清晰图像,每个尺寸的输出都经过训练,整个网络的最终输出是原始比例的图像。 在生成器网络的3个不同尺度结构中,每个尺度上都产生该尺度对应的清晰图像,产生的清晰图像经过图像上采样与下一尺寸的模糊图像作为输入再次产生清晰图像。 在训练时,3个尺寸模糊图像的大小设置为64×64,128× 128 和 256×256。

4.png

生成器的第1层网络是最粗糙的网络,第3层网络是最精细的网络。为了实现更深层的网络架构,本文使用了残差子网,其中残差子网的结构如fig 4所示。最粗糙网络的第 1 层卷积层将 1/4 分辨率、64 × 64 大小的输入图像处理为64个特征映射。生成器每个级别的网络分为 7 个模块,包括 1 个输入块、2 个编码块、1 个 LSTM 块、2 个解码块以及 1 个输出块。每个编码块都由 1 个卷积层和 3 个残差模块组成,编码块将输入的特征映射下采样为原来的 1/2. 解码块与之相对应,每个解码块包括 3 个残差模块和 1 个反卷积层,反卷积层将输入的特征映射上采样到原来的 2 倍。输出块将上采样后的特征映射作为输入生成图像. 在生成器的第 1 层网络运行结束时, 生成最粗糙的潜在清晰图像,第2层和第3层网络将上一层生成的清晰图像与下一级别尺寸的模糊图像作为输入,为了使上一层网络的输出图像适应下一层网络的输入尺寸,需要对图像进行上采样。

5.png

3.3、判别器模型

在生成对抗网络中,生成器的参数更新不是直接来自于数据样本,而是来自于判别器的反向传播,因此,生成对抗网络往往可以生成比其他模型更接近真实清晰图像的样本。本文采用生成对抗网络的判别器层次结构如下图所示。

6.png

3.4、损失函数

在优化网络参数时,本文采用多尺度内容损失和对抗性损失这 2 种损失函数,将 2 种损失函数进行组合,训练模型。由粗到精的方法希望输出的图像都是该尺度下清晰度最高的图像。为了防止过拟合同时获得更好的效果。本文使用 l2 范数,定义多尺度内容损失函数为:

7.png

其中:Ii、Ji 分别为在尺度水平i下模型输出图像和对 应的清晰图像;ki 为每个尺度的权重;Ni 为Ii 中需要 标准化的元素数量。

对抗性损失函数为:

8.png

在训练时,生成器试图最小化对抗损失,而判别器则试图最大化对抗损失。结合以上 2 种损失函数,总的损失函数为:

9.png

其中

10.png

四、数据集介绍

GoPro数据集是最近基于深度学习的方法中使用最广泛的数据集,首先通过告诉摄像机捕获清晰的视频,从视频中截取某些帧作为清晰图像,将该清晰图像前后几帧混合而生成的合成数据集,合成过程如fig 6所示。GoPro数据集为其训练和测试集提供了2,103和1,111对模糊和清晰的图像。数据集图像示例如fig 7所示。 图片fig 6.模糊图像合成过程

11.png

12.png

13.png

五、模型训练结果

模型在训练集上训练 200000 次后收敛,在真实场景测试模型效果,fig 8 所示. 由fig 8 可见,去除运动模糊后的图比较清晰,可以分辨细节内容。

14.png

文章来自一点资讯创新产品研发团队

参考文献:

[1] OKAMURA R,IWABUCHI H,SCHMIDT K S. Feasibility study of multi - pixel retrieval of optical thickness and droplet effective radius of inho - mogeneous clouds using deep learning[J]. Atmospheric Measurement Techniques,2017,10(12):4747-4759.

[2] 崇元,徐晓刚.单幅图象去运动模糊的新方法[J].计算机工程与设 计,2012,33(11):4305-4308.CHONG Y,XU X G. New method of motion deblurring from a single imag[J]. Computer Engineering and Design,2012,33(11):4305-4308(in Chinese).

[3] LEVINA,WEISSY,DURANDF,etal.Efficient marginal likelihood optimization in blind deconvolution[C]//2011 IEEE Conference on Com - puter Vision and Pattern Recognition(CVPR),2011,June 20-25,2011. Colorado Springs,CO,USA. New York,USA:IEEE,2011.

[4] 张莹. 运动模糊车牌图像盲复原与识别方法研究[D]. 青岛:青岛科 技大学,2014. ZHANG Y. Research on The Restoration and Recognition Algorithm of Motion Blurred Vehicle License Plate Image[D]. Qingdao:Qingdao University of Science and Technology,2014(in Chinese).

[5] TAO X,GAO H Y,WANG Y,et al. Scale-recurrent network for deep image deblurring[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2018,June 18-23,2018. Salt Lake City,Alabama,USA. New York,USA:IEEE,2018.

[6] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al. Genera- tive adversarial nets[C]//2014 International Conference on Neural Info- rmation Processing(ICONIP),2014,November 3-6,2014. Kuching, Malaysia. Cambridge,USA:MIT Press,2014.