StyleGAN encoder 论文解读论文地址：https://arxiv.org/abs/1904. 本文使用一

论文名称：Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?

论文地址：arxiv.org/abs/1904.03…

摘要

**** 本文使用一种有效的算法，能够将图片映射到styleGAN的潜在空间，使用FFHD训练好的styleGAN作为实例，演示风格转化，表达转化等。通过研究这个算法的编码结果提供一种研究styleGAN 潜在空间的有效方法。文中通过一系列的试验来测试，什么样的图片可以编码？它们怎么编码？什么样的潜在空间适用于编码？编码是否有意义？

本文 的贡献

提出了一种有效算法，可以将一个image转化到预训练模型的潜在空间W+。
从syleGAN潜在空间结构的视角出发研究了多种问题，什么样的图像可以转化成latent code？什么样的脸可以被转化？什么样的潜在空间适合转化。
采用基于向量的三个基本算法，来研究转化的质量如何，这样可以更好的理解潜在空间，以及不同的被编码的图像类别，作为本文的辅助成果，文中的人脸编辑，风格转化，表达转化的试验去得了惊人的效果。

潜在空间转化

图像映射到潜在空间的方法一般有两种：

训练一个编码器，可以将图像转化到潜在空间。
随机初始化一个latent code 并且使用梯度下降的方法去优化它。

由于第一种方法虽然快速，但是经常会生成超越潜在空间之外的latent code。所以本文选择的是第二种方法。

P er cetual Loss 和 风格转化

这一部分不属于文章的主体，主要是介绍了风格转化和Percetual Loss感觉有些用处也就列了出来。

Percetual Loss 表示两张图片经过vgg提取特征后，衡量两个特征相似度的Loss。一般来说VGG的每一层的featuremap 可以分离成图片内容，图片风格两种类别。早起的风格转化中，一般一种风格就需要专门训练一个模型，但是后来有的学者通过激活距离标准化的方法，解决了合格问题，可以在一个模型中实现多种风格的转化。

什么 样的图像适合转化

这个问题是一个比较重要的问题，在早期的试验中，使用人脸以及其他GAN生成的人脸做测试，发现差距很大。但是随着FFHQ数据集多样性的发展，以及styleGAN的出现，使得将图像映射到潜在空间成为可能。

多 图像转化结果

在实验中选择了25张图片，来自5个区域，人脸，猫，狗，汽车，画。并对这些图片进行了预处理，包括位置对齐。主要是因为，为了更好的理解潜在空间以及它的特征，多种类的图片是必须的。

试验1使用奥巴马测试

第一个是正常输入，正常输出。第二个是将左边像素移140到右。第三个将160像素从右移到左。第三个缩小一倍。第四个扩大一倍。第四第五都是位置转化。

从试验可以看到存在一些细节的丢失。

尽管生成的图片比真正图片略有瑕疵，但是生成的猫，狗等都具有很高的质量。能够充分的说明styleGAN具有很好的生成与编码功能。

图像映射 的 鲁棒性 解析

GAN的生成能力强弱与Affine Transformation是息息相关的，尤其是translation环节，如果translation环节失效那么将会导致生成模型，生成图像较差。

图像压力测试

使用去除鼻子眼睛的奥巴马进行压力测试，发现stylegan具有很强的鲁棒性，同时也说明了潜在空间的lantentcode 并不全是代表全脸的，而且生成的时候也不会填充出丢失的信息。

潜在 空间选择

styleGan的潜在空间有好多种，包括初始化空间z, 以及经过mapping net转化后的空间w。但是试验发现，直接使用w并不是一个很好的选择。所以本文选择了一个18*512的w+的向量，每一个对应styleGAN的一个层。

空间试验

左边第一个是原始图像，第二个是随机权重跑出的结果，第三个是直接逼近w空间的结果。

结果发现直接逼近w空间效果并不好。

空间转化的意义

这一部分主要进行了三组测试，分别是合成形变，风格转化，表达转化。评价标准是是否能够生成高质量的图片。

合成形变

两个图片的两组向量w1, w2。经过如下计算

然后生成一个新的图片

最左边和最右边是原始图像，中间的是生成图像。

风格转化

给出两个latent code w1 和 w2使用交叉操作，分别代表内容图片和风格图片。本文保留内容图片的前9层的内容（4*4 – 64*64），然后将风格图片的后9层内容进行拼接，但是这种方法对没有人脸的图像是很难保存其中内容的。

其中第一列是风格图。

综上来看，可知style GAN的风格元素与后9层是息息相关的。

表达转化

给出三个向量w1, w2, w3经过如下计算

其中w1是目标图像，w3, w2 分别表示表达图像，非表达同人图像。比如w1是一个人， w2 是一个微笑的人，w3是一个和微笑人同一人但是没有微笑，那么w就是生成w1微笑。

算法

算法的大体操作如下，给出一个合适的初始化向量w，以此为基础训练一个向量w1, 然后改变w1，用来最小化原始图像与w1生成图像之间的loss。

上面是算法流程图。

w的 初始化方法

w的初始化方法有两种

随机初始化，这种方法中，从[-1, 1]的均匀分布中随机选择向量。
使用图像阈的均值初始化，寻找一个逼近止的w1。

为了比较两种初始化方法的优劣，本文使用loss值以及优化值与中值的距离进行综合比较，对比结果如下图所示

综上所表示，人脸图像的初始化方法，均值初始化全面优与随机初始化方法。

L oss ****函数

其公式如下

其中I表示原始图像 G（）表示与训练的生成器， w是需要计算的latent code，第二项是L2函数

最为重要的是介绍loss的第一项也就是

其公式为

其中Fj 表示VGG16，中的conv1_1, conv1_2， conv3_2, conv4_2输出的feature map

下面是训练迭代图。

我 的理解

我的理解部分表示，我对论文理解的一些感悟，主要有四项如下

文中认为latent space均值能够表示较高质量的图片，也就是说，图片的latent code距离均值越近，其质量越好。相反距离均值越远其质量越差。
文中方法大体流程

初始化w ------à 根据w生成图像--------à通过计算w生成图像与真实图像的Loss----à 反馈调节w。

这一步骤中，生成器使用的是与训练好的style gan，没有使用到判别器。

Loss部分，Loss部分值得单拿出来一提，它将生成图片和原始图片都通过同一个VGG16然后，然后计算VGG16四个中间层出来的featuremap的欧式距离。从而能够比较图像的各个状态的特征。十分的有意义
本文中的总体流程与想象中的大不相同，它既没有训练vgg16 也没有训练stylegan, 它的整体模型中只有一个权重，就是初始化的latent code w，通过计算loss, 对w反向传播，然后是得更新后的w生成的图像，更加的能够匹配原始图像。

文中的VGG16 并没有用来逼近初始化权重，其作用是用来提取原始图像与生成图像的feature map计算loss 。我估计代码中的RESNET是初始化512*18的w。

参考网址：

blog.csdn.net/qq_38284961…