GAN图像生成控制新方法:非线性潜空间轨迹

4 阅读4分钟

欧洲计算机视觉会议 (ECCV) 上发表的一篇论文中,研究人员介绍了一种能够精确控制生成对抗网络 (GAN) 输出内容的新技术。与以往技术不同,该方法可以在改变其他属性的同时,保持选定的图像特征(例如房间中某个沙发的位置和外观)不变。

生成对抗网络 (GAN) 是一种能够生成极其逼真合成图像的技术。通过一组真实图像,GAN 学习从潜在分布到训练数据集中图像分布的映射。通过控制 GAN 来修改图像是一个活跃的研究课题,其应用包括数据集创建与增强、图像编辑以及娱乐。为了理解如何在潜空间中移动以改变合成图像的属性,研究人员已经开发出越来越复杂的技术来探索和构建潜空间。

现有线性方法的局限性

以往控制 GAN 的方法依赖于通过潜空间的线性轨迹,沿着这些轨迹,某些特征会发生变化(例如,生成人脸的年龄,或微笑/皱眉的程度)。研究人员要么在潜空间中寻找现有的坐标轴(这种情况下与图像特征的关联很少是精确的),要么有意地构建潜空间使其适合线性轨迹(这种情况下必须预先知道要控制哪些图像特征)。

非线性轨迹实现精确控制

新方法不是将空间坐标轴与预定义特征关联起来,而是在 GAN 的潜空间中绘制一条非线性轨迹。因此,它可以与现有的 GAN 一起使用,无论其潜空间的结构如何。这意味着,原则上可以控制多个任意属性。

同样地,该方法可以控制那些人类难以准确标注的特征——因此也很难通过修改潜空间的结构来捕捉。例如,对图像进行傅里叶变换,可以固定高频特征并改变低频特征,从而产生清晰但变化难以解释的不同图像。

最后,大多数关于可控 GAN 的研究都集中在合成人脸上,这在一定程度上简化了问题,因为相同的面部特征往往位于图像中大致相同的区域。新方法由于可以在任意潜空间中绘制局部轨迹,因此能够处理更多样化的图像类型。

基于瑞利商的方法

该方法依赖于一个直觉:对于潜空间中的任何点,都存在一些局部轨迹,在这些轨迹上期望的属性不会改变。该方法将计算这样的轨迹视为一个优化问题——具体来说是瑞利商问题。

假设对于潜空间中的任何点,存在一个函数将对应的图像映射到某种特征集。在诸如头发长度或眼睛颜色等特征的情况下,该函数将是一个在相关分类任务上训练的神经网络;在高低频图像特征的情况下,该函数是一个封闭形式的变换,如傅里叶变换。

目标是找到一条通过潜空间的局部轨迹,该轨迹最小化某些函数输出的变化,同时最大化其他函数输出的变化。优化这些变化的比率是瑞利商最大化问题的一个实例。

该方法使用局部线性展开——基于函数导数的、在某点处函数值的线性近似——来近似潜空间中的相对位移。组装导数矩阵需要采样潜空间中的局部点。完成此操作后,瑞利商的最大化有一个封闭形式的解,从而给出通过空间的最优轨迹。

沿着该轨迹行进一小段距离,然后重新计算一个新的瑞利商。路径点之间的距离是该方法的超参数,根据函数而变化。在实验中,研究人员选择的参数会导致路径点对应的图像产生微小但可察觉的差异。

在这些实验中,研究人员将该方法与先前三种在潜空间内寻找线性轨迹的方法进行了比较,使用了在两个不同数据集(一组人脸和一组客厅场景)上训练的 GAN。结果发现,无论在固定需固定的特征还是变化需变化的特征方面,该方法在所有情况下都比基线方法表现更好。FINISHED