Task: 给定两张人脸图片A、B,文中的方法可以得到一张结合A的外貌B的表情的图片(反之亦然)
1.论文提出的着力点(问题导向)
an optimization procedure + a linear combination scheme
- 应用广泛:照片编辑,视觉效果,社交VR和AR
- 之前的方法也存在着需要paired data或者 不同的identity需要再次训练模型,模型的可扩展性不强
2.可行的原因
深度生成模型能够学习数据的低维流形。在潜在流形而不是像素空间中进行编辑可确保图像不会脱离流形,并且图片看起来自然逼真。 其次,StyleGAN可以学习分层的“样式”向量,这些向量可以解释不同级别的属性,从诸如头发颜色或睁开/闭着眼睛的精细属性到姿势,面部形状,眼镜等高级方面
3.步骤
(1) 利用检测的landmarks对图像I中的人脸区域进行crop和normalize
(2)在得到裁剪和校正后的图像后,使用预先训练的StyleGAN模型,迭代地优化和推断I1和I2的样式向量
- 原始的style-GAN
其中包括一个映射网络f 和一个生成网络g,f的输入是一个随机噪声,输出是一个style vector ; 生成网络g的输入是style vector和一个固定的噪声。其中style vector是作为在每次卷积操作前的自适应实例归一化处理的一个调整参数。
- 本论文的生成模型 通常做法是用CNN从图像中提取特征,通过训练CNN改变网络中的参数调整特征的性质。本文则是直接初始化特征向量,输入styleGAN中预训练的生成器得到复原图像(即我们想要解耦合出表情特征的图像),通过设计目标函数,使得输入的特征向量在训练中不断更新靠近目标图像中的表情特征,这期间生成器参数是固定的,训练的不是网络而是特征向量。