Context encoders: Feature learning by inpainting 论文笔记

383 阅读1分钟

介绍

这篇文章提出了一个基于上下文像素预测的无监督学习方法。采用编码器-解码器的架构以及卷积神经网络和GAN来生成带有语义信息的图像。

网络结构

image.png

Encoder

编码器来自AlexNet架构。给定一个大小为227×227的输入图像,我们使用前5个卷积层和下面的池化层(称为pool5)来计算一个抽象的6 × 6 × 256维特征表示。

Channel-wise fully-connected layer

中间的通道,只传播信息,没有连接不同特征图的参数。 这之后是跨越通道传播信息的步长为1的卷积。

Decoder

Channel-wise fully-connected layer 之后是5个激活函数为 ReLU 的 up-convolutional layers,即一系列上采样和非线性包括编码器产生的特征的非线性加权上采样,直到我们大致达到原始目标大小。

损失函数

Reconstruction Loss

image.png

使用MSEloss(L2)均方误差,捕获缺失区域的整体结构,让重建结果与周围的信息一致。但易在预测输出中平均多种模式

Adversarial Loss

image.png

对于一副图像中的空白区域,可能有多种填充方式符合整体结构以及可以与周围信息很好地接洽,即多种可能的输出模式。交叉熵Loss进行特定模式选择,使预测结果更加真实

Joint Loss

image.png

运行结果

image.png

总结

最先用深度学习解决图像修复问题;

提出了编码器-解码器架构来实现图像修复;

提出了Channel-wise fully-connected layer来代替全连接减少参数;