这是我参与11月更文挑战的第1天,活动详情查看:2021最后一次更文挑战。
Rethinking and Improving the Robustness of Image Style Transfer
Motivation
作者通过大量实验发现在风格迁移任务中特征提取器用VGG时的效果比ResNet好,其原因在于残差连接产生的特征图熵偏小,不利于风格转换,于是作者提出一种基于softmax的增强熵的方法。经检验,这种方法对随机初始化的权值的网络依然有效,由此启示我们用于特征提取的网络结构比使用学习到的权值更重要。
Introduction
上图所示为使用随机初始化或在ImageNet上预训练过的Vgg/ResNet模型进行风格转换,可以发现预训练的效果好于随机初始化,Vgg的效果好于Res,这也是作者的出发点,就是探究为什么在分类、分割任务中ResNet作为backbone的效果好于Vgg,但在风格转换中却相反。
为了证实猜想,作者补充了以下实验:
(f)为消除残差连接后的Res,(g)为
Method
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization
ICCV 2017
Abstract
Gatys方法适应多种风格,但太慢;前馈神经网络快,但风格固定。作者提出一种适应任何风格的实时转换方法,核心为ALADIN层(自适应内容归一化),速度接近前馈方法。
Related Work
Deep generative image modeling
VAE(自动变分编码器),auto_regression model(自回归模型),GAN(生成对抗网络),其中GAN的效果最好
Background
Batch Normalization
BN通过归一化特征图统计量简化训练,一开始是被用来加速判别器的训练,但也被发现在生成图像建模中有用。其统计特征是基于一整个Batch。
其中和是从数据中学习的仿射参数,和每个channel独立计算,N为Batchsize大小,具体公式如下:
Instance Normalization
IN是针对BN在风格转化中的改进,针对每个通道和每个样本独立计算:
Conditional Instance Normalization
改进了仿射变换参数和 ,不是只学习两个参数,而是两组。用不同的参数组合即可控制生成不同的风格。但它的缺点在于额外的参数量和style个数呈线性关系,所以不适用于对需要大量风格的任务建模。
Adaptive Instance Normalization
x为内容输入,y为样式输入,两者通过以下公式自适应耦合。
Experimental Setup
Achitecture
Encoder使用预训练过的VGG的前几层,编码后将内容和风格的特征图送入AdaIN产生目标特征图。decoder被随机初始化,在训练中学习将目标特征图映射回图像空间。
Traning
Loss函数是和的线性加权和,依然是欧式距离,但不再是Gatys使用的Gram Matrix,作者选择计算原始风格图和生成图在encoder中逐层的均值和方差差异: