Unconstrained Facial Expression Transfer using Style-based Generator

浮云游子意

2020-10-25 499 阅读2分钟

Task: 给定两张人脸图片A、B，文中的方法可以得到一张结合A的外貌B的表情的图片（反之亦然）

1.论文提出的着力点（问题导向）

an optimization procedure + a linear combination scheme

应用广泛：照片编辑，视觉效果，社交VR和AR
之前的方法也存在着需要paired data或者不同的identity需要再次训练模型，模型的可扩展性不强

2.可行的原因

深度生成模型能够学习数据的低维流形。在潜在流形而不是像素空间中进行编辑可确保图像不会脱离流形，并且图片看起来自然逼真。其次，StyleGAN可以学习分层的“样式”向量，这些向量可以解释不同级别的属性，从诸如头发颜色或睁开/闭着眼睛的精细属性到姿势，面部形状，眼镜等高级方面

3.步骤

（1）利用检测的landmarks对图像I中的人脸区域进行crop和normalize

（2）在得到裁剪和校正后的图像后，使用预先训练的StyleGAN模型，迭代地优化和推断I1和I2的样式向量

原始的style-GAN

其中包括一个映射网络f 和一个生成网络g,f的输入是一个随机噪声，输出是一个style vector ; 生成网络g的输入是style vector和一个固定的噪声。其中style vector是作为在每次卷积操作前的自适应实例归一化处理的一个调整参数。

本论文的生成模型 通常做法是用CNN从图像中提取特征，通过训练CNN改变网络中的参数调整特征的性质。本文则是直接初始化特征向量，输入styleGAN中预训练的生成器得到复原图像(即我们想要解耦合出表情特征的图像)，通过设计目标函数，使得输入的特征向量在训练中不断更新靠近目标图像中的表情特征，这期间生成器参数是固定的，训练的不是网络而是特征向量。

（3）融合style vector

(4)最后用融合特征生成人脸图像，然后warp复原为带有背景的正常图像。

参考：

blog.csdn.net/lynlindasy/…