谷歌的图像超分辨率新方法

746

谷歌研究团队提出了一种强大的新方法。

抽象的

研究团队提出了 SR3,这是一种通过重复细化实现图像超分辨率的方法。SR3 使去噪扩散概率模型适应条件图像生成,并通过随机去噪过程执行超分辨率。推理从纯高斯噪声开始,并使用在各种噪声水平上进行去噪训练的 U-Net 模型迭代地细化噪声输出。SR3 在不同放大倍数下的超分辨率任务、面部和自然图像上表现出强大的性能。与 SOTA GAN 方法相比,他们在 CelebA-HQ 上对标准的 8 倍人脸超分辨率任务进行了人类评估。SR3 的混淆率接近 50%,表明输出逼真,而 GAN 的混淆率不超过 34%。研究团队进一步展示了 SR3 在级联图像生成中的有效性,

超分辨率结果

谷歌研究团队展示了 SR3 在人脸和自然图像超分辨率任务上的性能。以 16×16 → 128×128 和 64×64 → 512×512 执行人脸超分辨率。还训练了 64×64 → 256×256 和 256×256 → 1024×1024 的人脸超分辨率模型,有效地允许研究团队通过级联进行 16× 超分辨率,还在自然图像上探索 64×64 → 256×256 超分辨率。

image.png 超分辨率结果:(上)64×64 → 512×512 人脸超分辨率,(下)64×64 -> 256×256 自然图像超分辨率。

image.png

谷歌研究团队进行了 2-Alternative Forced Choice Experiment 人类评估实验。要求受试者在参考高分辨率图像和模型输出之间进行选择。通过混淆率来衡量模型的性能(时间百分比,评估者选择模型输出而不是参考图像。)(上图)在 16×16 -> 128×128 人脸表现优于状态的任务上实现了接近 50% 的混淆率艺术人脸超分辨率方法。(下图)还在 64x64 -> 256x256 自然图像这一非常困难的任务上实现了 40% 的混淆率,其性能大大优于回归基线。

无条件生成结果

使用无条件扩散模型的级联以 64×64 分辨率生成无条件 1024×1024 无条件人脸图像,然后是两个 4× 超分辨率模型。还通过使用 64×64 分辨率的类条件扩散模型和 4x 超分辨率模型的级联来生成 256×256 类条件自然图像。级联生成允许并行训练不同的模型,推理也很有效,因为低分辨率模型可以使用更多迭代,而高分辨率模型使用更少迭代。

image.png

级联生成无条件的 1024×1024 人脸。

image.png

选定的无条件 1024×1024 人脸的示例代。

image.png

类条件 256×256 自然图像的选定示例代。每行包含来自特定类的示例。

参考文章:

80.lv/articles/go… iterative-refinement.github.io/ arxiv.org/pdf/2104.07…