Image Style Transfer Using Convolutional Neural Networks

366 阅读1分钟

神经风格转换的开山之作,理解本文的方法对读懂后续改进的论文有重要意义。

Method

模型完整结构如下所示: image.png

内容表示

Lcontnet(p,x,l)=12i,j(FijlPijl)2L_{contnet}(p,x,l) = \frac{1}{2}\sum_{i,j}(F^l_{ij} - P^l_{ij})^2用于监督生成图xx和内容参考图pp对应第ll层特征图。

风格表示

CNN可以提取特征,而这些特征的相关性由Gram Matrix衡量:

Gl=Fl(Fl)TG^l = F^l(F^l)^T

它实际上是不减去均值的协方差计算公式。 AlA^lGlG^l分别是原风格图和生成图在第ll层特征图的Gram矩阵,每层对loss的贡献ElE^l公式如下所示:

El=14Nl2Ml2i,j(GijlAijl)2E^l = \frac{1}{4N_l^2M_l^2}\sum_{i,j}(G_{ij}^l - A_{ij}^l)^2

N,M应该是特征图的长和宽。

风格迁移

Ltotal=αLcontent(p,x)+βLstyle(a,x)L_{total} = \alpha L_{content}(p,x) + \beta L_{style}(a,x)

优缺点分析

优点

  1. 适用于任何风格
  2. 可以控制风格化的程度

缺点

  1. 缺乏通用性,不同内容图片的风格化每次都需要重新训练
  2. 速度慢,每次重新训练都需要大概1H