Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting论文笔记

330 阅读2分钟

摘要及介绍

这篇文章主要提出了一个金字塔编码器网络(PEN—Net),PEN-Net建立在U-Net结构的基础之上。通过注意力机制将高维特征转移到低维特征上,保证了图像修复的视觉与语义的一致性。并进一步提出了具有深度监督金字塔损失和对抗损失的多尺度编码器。

网络结构

image.png

Pyramid-context Encoder Network

总体网络结构主要由三个部分组成:金字塔上下文编码器、多尺度解码器、鉴别器。其中上下文编码器引入了一个ATN注意力转移网络

金字塔上下文编码器

上下文编码器主要用来通过高维特征来指导低维特征的生成,每一层的输入为一个高层特征和上一层得到的特征。具体公式如下

image.png

其中 f为ATN模块,φ代表金字塔各层的图片,ψ代表融合生成的层次图片。具体如网络结构所示

ATN模块

首先计算图片中缺失部分和未缺失部分之间的相似度

image.png

之后通过softmax通过相似度得到注意力分数

image.png

在得到注意力分数之后,利用注意力分数进行加权计算填充缺失区域

image.png

多尺度解码器

image.png

多尺度解码网络在第一层时,对encoder最后一层高级语义潜特征进行转置卷积,然后将ATNs第二层结果和转置后的结果进行通道相加,然后再进行一次卷积,这就是decoder的一层操作。下面的以此类推。

Pyramid L1 losses

image.png

每一层预测图片与真实图片的L1距离

Adversarial training loss

判别器损失

image.png

对于来自真实样本的数据,D越大越好,对于来自生成的数据D越小越好

对抗损失

image.png

对于生成器来所,希望生成数据送入判别器得到的值越大越好。

整体损失

image.png

实验结果

image.png