VQ系列-VQI2I

83 阅读1分钟

图像翻译之VQ系列

Vector Quantized Image-to-Image Translation(ECCV2022)

arxiv.org/pdf/2207.13…

github.com/cyj407/VQ-I…

Contribution

  • 提出VQ-I2I,一种以采用矢量量化(vector quantized codebook)作为中间表示的框架,它能够实现image translation和源域无条件生成
  • 在联合量化内容空间上学习自回归模型,以无条件地合成潜在内容表示,在内部和跨域两方面都具有灵活性的图像扩展能力
  • 性能sota

Related works

Vector Quantized Generative Models

生成模型:

  • 隐式(GAN:其高保真合成图像,在训练中存在不稳定性)

  • 显式密度估计(像素级自回归:PixelCNN、Vae等输出相对模糊或难以扩展)

    矢量量化 (VQ) 技术采用了显式方法来缓解扩展问题,使用量化潜在向量作为潜在表示。VQGAN 然后提出了一个混合框架,首先利用 GAN 技术学习 VQ 码本,然后采用变换器在学习到的 VQ 索引上训练自回归模型。

Method

Vector Quantized Content Representation

表示:

image.png

codebook Z 更新损失

image.png

Diverse Image-to-Image Translation

image.png

  • 风格(spetific)、内容表示

image.png

  • image translation

    生成器G,AdaIN normalization layers(结合内容表示和风格特征) image.png

  • loss

    LadvL_{adv}:促进翻译图片的真实性(realism)

    L1styleL^{style}_1L1contentL^{content}_1L1reconL^{recon}_1

image.png image.png

image.png

Unconditional Generation

image.png 用transformer网络像生成句子一样,一个字一个字往下预测(autoregressive next-index prediction process) image.png 然后结合风格特征输入到生成器里

Experiments

  • Datasets:AFHQ portrait Cityscapes

image.png image.png image.png image.png