简介
超分辨率成像是指使用不同的技术将低分辨率的图像转换成高分辨率的图像,它主要是在上采样的图像上进行。超分辨率GAN(SRGAN)是生成式对抗网络,它可以使用由对抗损失和内容损失组成的感知损失函数,从低分辨率图像中生成高分辨率图像。我们知道GAN是由生成器和鉴别器组成的,因此鉴别器是用来区分真实图像和超分辨率图像的,而生成器则试图生成超分辨率图像,上面提到的对抗性损失有助于超分辨率图像的自然化。另一方面,内容损失有助于提高感知的相似性,而不是改善像素空间。上述感知相似性又是由一个指数来计算的。
通常情况下,有监督的超级分辨率算法侧重于通过减少平均平方误差(MSE)和增加峰值信号噪声比(PSNR)来提高图像的分辨率,这导致了像素差异的改善,但感知差异仍然存在,这不一定代表更精细的纹理细节。在下图中,你可以观察到PSNR比率的增加并不代表高分辨率的图像。

在这篇研究论文中,作者主要关注单幅图像超级分辨率(SISR),并介绍了与过滤方法不同的避免应用后平滑化效应的方法。
SRGAN的设计/结构
根据作者对不同文献的研究,可以看出深度神经网络产生了很高的准确性,尽管训练深度网络很困难。为了有效地训练这些网络,应该进行批量归一化,以防止内部协变量的转移。
在本文中,作者提出了一个新的架构,使用一个16块的深度ResNet,执行高放大(4倍),也取代了基于MSE的优化,防止平滑化效应。该架构不要忘记是一个基于GAN的架构,这意味着有一个生成器来生成照片上的真实图像,还有一个判别器来区分生成的图像和原始图像:

生成器网络是一个反馈式CNN,其主要目标是通过SR特定的损失函数将低分辨率图像转换为高分辨率图像。生成器由B个残差块组成,生成器在每个残差块中执行以下操作:
- 输入。给予GAN发生器的输入是低分辨率图像。
- 卷积块:卷积是在这个块中完成的,其中有64个3x3过滤器,有助于从输入中提取特征。
- 批量归一化:在特征提取后,数据集的批次被归一化,以减少计算量并防止内部协变量的转移。
- PReLU。生成器也使用PReLu或Parametric ReLu作为激活函数,进一步帮助处理负值并防止死神经元问题,Parametric ReLU将负值的结果乘以一个参数alpha=0.01。
- PixelShuffler:PixelShuffler是生成器网络中的另一个组件,它有助于通过洗牌因子重塑收到的张量,从而使图像可以被放大,并且不会像分层卷积那样失去分辨率。
- 输出。输出是SR图像。
鉴别器网络依次执行以下操作:
- 卷积块:有8个卷积块,滤波器大小为3 X 3。
- 批量归一化。鉴别器执行批量归一化,以减少计算的复杂性。
- LeakyReLU。利用了LeakyReLU激活函数。LeakyReLu对负值有一个小斜率,因此它避免了零斜率误差,这有助于将负值考虑在内。
- 密集:为了将张量特征图转换并连接到一维阵列,使用了密集块。
- Sigmoid函数。作为最后一个分类器,Sigmoid用来将输出分为HR或SR,将张量转换为一个逻辑数字,显示图像为HR或SR的概率。
- 输出。输出是输入的类别,即HR或SR。
损失函数
当使用MSE损失函数时,主要目的是减少平均平方误差,在这个过程中,会产生多种潜在的精细纹理图像的解决方案,并进一步取平均值以获得平滑的图像。

作者利用两个损失函数开发了一个感知损失,能够根据感知上的相关特征进行区分。

内容损失:
与计算MSE损失不同的是,MSE损失会产生污点效果,并且忽略了纹理等高频特征,作者开发了一个损失函数,它不仅仅依赖于像素损失,而是将VGG损失定义为特征表示之间的欧氏距离。

对抗性损失。
对抗性损失迫使生成器生成高度真实的图像,以帮助骗过鉴别器。

评估指标
- *PSNR:*峰值信噪比是指信号产生的最大功率与干扰图像实际表现的噪声之间的比率,PSNR通常以分贝(dB)表示。
- *SSIM:*结构相似性指数测量(SSIM)用于测量两个图像之间的相似性,该指数范围在-1到1之间。
- MOS:平均意见得分是由评分者给出的评级,它的范围是1到5,其中1代表低分辨率的图像,5代表高分辨率的图像。
实验
实验是在Set5、Set14和BSD100上进行的,四合院集BSD300。为了进行公平的比较,所有的图像都以恒定的放大系数即4倍进行,并根据PSNR和SSIM进行比较。训练是使用NVIDIA Tesla M40 GPU在ImageNet数据库的35万张图像上进行的。至于优化算法,则使用了Adam。
平均意见得分(MOS)测试:
根据这个测试,有26个评分者对每张图片的12个版本进行评分。在这种情况下,SRGAN表现出色,在BSD100上显示了近3.5分的好成绩。

PSNR、SSIM和MOS等级都可以在下表中看到,对于PSNR和SSIM,SRResNet表现得特别好,但在MOS等级方面,如上所述,SRGAN发挥了更好的作用。

本文还进一步表明,标准的衡量标准,即PSNR和SSIM不能评估图像质量,因此与HR图像相反,LR图像得到了更高的PSNR和SSIM分数。

常见问题。
-
什么是像素?
Soln:像素是数字图像的最小单位,也被称为图片元素,一个像素通常是一种颜色的阴影,颜色的数量可以通过给数字设备的比特数来定义。例如,如果给系统2个比特,在黑与白之间可以有4种颜色的组合,即黑、白、浅灰和深灰。 -
什么是平滑效果?
解答:平滑是一种用于减少图像中噪音的技术,在平滑过程中,相邻的像素被平均化或最大化,这通常会导致图像中的边缘LR。 -
生成器是如何生成图像的?
解答:生成器从潜伏空间获取噪声,并进一步根据测试和试验反馈,生成器不断对图像进行改进。经过一定时间的试验和错误,生成器开始生成某一类的准确图像,而这些图像是很难与真实图像区分的。 -
鉴别器是如何进行分类的?
解答:鉴别器在卷积后得到一个概率分数,因此鉴别器根据概率来选择决策。