(论文笔记)UnivFD

521 阅读3分钟

Towards Universal Fake Image Detectors that Generalize Across Generative Models CVPR2023

摘要

该方法使用一个没有明确通过真实与生成图像训练过的特征空间,将图片映射至该特征空间后,使用最近邻或线性探测进行分类

image.png

activation

作者发现在GauGAN上检测效果不错,但在ADM等diffusion上效果接近于随机,通过t-SNE可视化发现Real class变成了'sink' class,以至于测试到在训练时未见过的生成模型生成的图像,会更倾向于将该图片分为Real。

image.png

关于分类不平衡的原因

作者将不同模型的生成图像和真实图像各2000张,经过一个高通滤波(将原图像减去其中值滤波图像),之后将2000张图像取平均,得到我们所需的频谱图,如下图所示:

image.png

GAN Family有重复且规律的棋盘伪影,diffusion Family和Real则没有

正是因为当我们训练时使用GAN生成图像,以至于图片学习到了GAN生成图像中这种独特的Pattern,导致了分类不平衡问题

假设

检测器在学习时,只关注图片中是否出现了前文所提到的伪影,因为这种伪影就足够使得训练的error减少了,以至于忽视了学习与真实类相关的任何特征。因此导致了决策边界的倾斜,由于diffusion生成图像缺少这种伪影,所以被分为真实图像。

method

作者使用没有在真假图片上明确训练过的特征空间,该特征空间尚未学会将图像与两类分开。这可能会确保特征不会偏向于从一个类中识别出比其他类不成比例的模式。

关于特征空间的选择:不能直接在像素空间进行分类是不可行的,因为像素空间无法捕捉到图像有意义的信息(如边缘、形状、纹理等)。因此,需要通过深度学习网络将图像映射到一个能够更好地表达图像内容和结构的特征空间,然后在特征空间进行分类。这个特征空间应该具有有助于分类的优良特性。

由于希望设计一个通用的检测器,所以特征空间φ需要满足两点要求:

  1. φ应该接触大量的图像:这意味着特征空间φ需要通过大量的图像数据进行训练,以便能够学习到足够丰富的表征。由于我们的目标是设计一个能够检测各种类型真实和假图像的通用型检测器(例如,人像、户外场景等),因此φ需要在特征空间中包含多种类型的图像。这样,对于任何新的测试图像,φ都能够知道如何正确地将其嵌入特征空间中。
  2. φ在整体上具有通用性的同时,还能够捕捉图像的低级细节:这是因为真实图像和假图像之间的差异往往特别体现在图像的低级细节上。例如,假图像可能在纹理、边缘等方面与真实图像存在细微的差别。因此,φ需要具备能够识别这些低级差异的能力,以便更准确地判断图像的真实性。

CLIP:ViT-L/14可以满足这两个要求 之后使用最近邻和线性分类器对图像进行最终分类