图像翻译之VQ系列
Vector Quantized Image-to-Image Translation(ECCV2022)
Contribution
- 提出VQ-I2I,一种以采用矢量量化(vector quantized codebook)作为中间表示的框架,它能够实现image translation和源域无条件生成
- 在联合量化内容空间上学习自回归模型,以无条件地合成潜在内容表示,在内部和跨域两方面都具有灵活性的图像扩展能力
- 性能sota
Related works
Vector Quantized Generative Models
生成模型:
-
隐式(GAN:其高保真合成图像,在训练中存在不稳定性)
-
显式密度估计(像素级自回归:PixelCNN、Vae等输出相对模糊或难以扩展)
矢量量化 (VQ) 技术采用了显式方法来缓解扩展问题,使用量化潜在向量作为潜在表示。VQGAN 然后提出了一个混合框架,首先利用 GAN 技术学习 VQ 码本,然后采用变换器在学习到的 VQ 索引上训练自回归模型。
Method
Vector Quantized Content Representation
表示:
codebook Z 更新损失
Diverse Image-to-Image Translation
- 风格(spetific)、内容表示
-
image translation
生成器G,AdaIN normalization layers(结合内容表示和风格特征)
-
loss
:促进翻译图片的真实性(realism)
、、
Unconditional Generation
用transformer网络像生成句子一样,一个字一个字往下预测(autoregressive next-index prediction process)
然后结合风格特征输入到生成器里
Experiments
- Datasets:AFHQ portrait Cityscapes