神经网络图像压缩技术新突破

66 阅读6分钟

教学神经网络压缩图像

新的损失度量与识别高重要性图像区域的模块相结合,改善了压缩效果。

背景

几乎所有在互联网上传输的图像都会经过压缩以节省带宽,而通常执行压缩的编解码器(编码器-解码器的简称)如JPG都是手工制作的。理论上,基于机器学习的编解码器可以提供比手工编解码器更好的压缩和更高的图像质量。但机器学习模型通过最小化某些损失度量进行训练,而现有的损失度量(如PSNR和MS-SSIM)与人类对相似性的感知并不一致。

在今年1月的IEEE冬季计算机视觉应用会议(WACV)上,提出了一种用于学习图像压缩的感知损失函数,以解决这个问题。

在相同比特率下,七种不同压缩方案(包括学习和手工制作)重建图像的比较。该方法比其他方法更忠实地重建图像细节,并与原始(未压缩)图像更接近。

还描述了如何将显著性纳入学习编解码器中。当前的图像编解码器,无论是经典的还是学习的,往往对图像的所有区域进行同等压缩。但大多数图像都有显著区域(如人脸和文本),在这些区域中,忠实的重建比其他区域(如天空和背景)更重要。将更多比特分配给显著区域而非低重要性区域的压缩编解码器往往能产生人类观看者更满意的图像。该模型自动从训练数据中学习如何权衡分配给图像显著和非显著区域的比特。

会议演示视频

研究人员会议演示视频

在论文中,还报告了两项评估研究的结果。一项是人类感知研究,要求受试者比较该编解码器与其他编解码器的解压缩图像。另一项研究在下游任务(如目标检测和图像分割)中使用压缩图像。在第一项研究中,该方法在比特率低于每图像像素一比特时明显胜出。在第二项研究中,该方法在所有方面都表现最佳。

模型衍生的损失

多项研究表明,用于训练神经网络作为压缩编解码器的损失函数与人类对质量的判断不一致。例如,在下图中的四个压缩后重建图像中,人类一致选择右数第二个为最忠实,即使根据MS-SSIM损失度量它仅排名第三。

源图像及其四个压缩后重建,按MS-SSIM值从左到右降序排列。然而,人类评估者将得分第二低的重建(BPG)评为最佳。

然而,也有研究表明,在任意计算机视觉任务(如物体识别)上训练的神经网络计算的中间值比传统损失度量更符合人类相似性判断。也就是说,在计算机视觉任务上训练的神经网络通常会为每个输入图像生成一个固定长度的向量表示,这是进一步处理的基础。该向量对于两个不同图像的值之间的距离是预测人类相似性判断的良好指标。

用于计算深度感知损失的系统架构。F是从图像排名任务中学习到的编码器。下游处理规范化编码器输出并计算它们之间的距离。

利用这一观察结果,创建了适用于训练图像压缩模型的损失函数。换句话说,为了训练图像压缩模型,使用了由另一个神经网络计算的损失函数。这被称为深度感知损失

首先,使用二选一强制选择(2AFC)方法创建了一个压缩训练集。向注释者呈现同一图像的两个版本,这些版本来自不同压缩方法(包括经典和学习编解码器)的重建,原始图像位于它们之间。要求他们选择更接近原始图像的图像。平均而言,注释者在每个样本上花费56秒。

将这些数据分为训练集和测试集,并训练一个网络来预测人类注释者更喜欢每对重建图像中的哪一个。然后提取产生输入图像向量表示的编码器,并将其用作计算相似性分数的系统的基础(如上图)。

该相似性度量比其前身更接近人类判断,MS-SIM和PSNR得分最低。

在右侧表格中,可以看到与其他度量相比,该方法(LPIPS-Comp VGG PSNR)最接近人类判断(81.9对82.06)。(人类判断得分低于100,因为人类注释者有时对图像的相对质量存在分歧。)另请注意,MS-SSIM和PSNR损失是得分最低的度量。

压缩模型

凭借良好的感知损失度量,可以训练神经编解码器。为了使其能够学习利用显著性判断,编解码器包括一个现成的显著性模型,该模型在已注释显著区域的10,000图像数据集上训练。编解码器基于训练数据独立学习如何使用显著性模型的输出。

神经压缩编解码器的架构。标记为比特串的两个模块中较短的是输入的压缩版本。在训练期间,输入既被压缩又被解压缩,以便根据新的损失度量评估网络在原始和重建图像之间的相似性。

在论文中,报告了一项广泛的人类评估研究,将该方法与五种其他压缩方法在四种不同的每像素比特值(0.23、0.37、0.67、1.0)上进行比较。受试者认为该模型的重建图像在三种最低比特率下最接近原始图像。在每像素1.0比特的比特率下,BPG方法是表现最佳者。

进行了另一项实验,使用传统和学习图像压缩方法压缩基准COCO数据集中的图像。然后将这些压缩图像用于其他任务,如实例分割(查找物体边界)和物体识别。该方法的重建图像在所有方面都提供了卓越的性能,因为该方法更好地保留了图像中的显著方面。

在各种压缩率下保留图像重要方面的压缩算法以多种方式使某中心客户受益,例如降低云存储成本和加速某中心照片存储图像的下载。向客户提供这些具体成果是这项工作的动机。