GAN图像生成器非线性控制方法解析

27 阅读4分钟

方法实现GAN图像生成器输出的更好控制

通过绘制生成对抗网络潜在空间中的非线性轨迹,该方法能够使某些图像属性发生变化,同时保持其他属性不变。

技术背景

生成对抗网络是一种能够生成非常逼真合成图像的技术。从一组真实图像中,GAN学习从潜在分布到训练数据集中表示的图像分布的映射。

通过控制GAN来修改图像是一个活跃的研究课题,其应用包括数据集创建和增强、图像编辑和娱乐。研究人员开发了越来越复杂的技术来探索和构建潜在空间,以了解空间中的移动如何转化为合成图像属性的修改。

新技术优势

我们提出了一种新技术,能够对GAN输出提供精确控制。与先前技术不同,我们的方法可以在改变其他属性的同时保持选定图像属性的稳定——例如房间中一个沙发的位置和外观。

先前控制GAN的方法依赖于潜在空间中的线性轨迹,沿着这些轨迹某些特征会发生变化。研究人员要么寻找潜在空间中的现有轴,这种情况下与图像特征的相关性很少精确;要么有意构建空间使其适合线性轨迹,这种情况下他们必须提前知道想要控制哪些图像特征。

非线性轨迹方法

我们的方法不是将空间轴与预定特征相关联,而是通过GAN的潜在空间绘制非线性轨迹。因此,它可以与现有的GAN一起工作,无论其潜在空间的结构如何。这意味着我们原则上可以控制多个任意属性。

同样,我们可以控制人类难以准确注释的特征——因此难以通过修改潜在空间结构来捕获。例如,对图像进行傅里叶变换,我们可以固定高频特征并改变低频特征,产生明显不同的图像,但其变化难以解释。

技术原理

我们的方法依赖于这样的直觉:对于潜在空间内的任何点,都存在所需属性不发生变化的局部轨迹。我们将这种轨迹的计算视为优化问题——特别是瑞利商问题。

我们假设对于潜在空间中的任何点,都有一个函数将相应图像映射到某种特征集。对于像头发长度或眼睛颜色这样的特征,该函数将是在相关分类任务上训练的神经网络;对于高频和低频图像特征,该函数是像傅里叶变换这样的闭式变换。

目标是通过潜在空间找到一条局部轨迹,最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是瑞利商最大化的一个实例。

实现方法

我们使用局部线性展开来近似空间中的相对位移——基于函数导数在给定点的函数值的线性近似。组装导数矩阵——测量不同维度变化或变化率的雅可比矩阵——需要我们在潜在空间中采样局部点。一旦完成,瑞利商的最大化就有了闭式解,这为我们提供了通过空间的最佳轨迹。

我们沿着该轨迹移动一小段距离,然后重新计算新的瑞利商。路径点之间的距离是该方法的一个超参数,根据函数而变化。在我们的实验中,我们选择了导致路径点对应图像产生小而可感知差异的参数。

实验结果

在这些实验中,我们将我们的方法与三种先前在潜在空间中找到线性轨迹的方法进行了比较,使用了在两个不同数据集上训练的GAN,一个是人脸集合,一个是客厅场景集合。我们发现,在所有情况下,我们的方法在固定要固定的特征和变化要变化的特征方面都比基线方法做得更好。