ATME

122 阅读2分钟

ATME

Look ATME: The Discriminator Mean Entropy Needs Attention cvpr 2023

【腾讯文档】实验进度 docs.qq.com/doc/DU2VBcX…

为什么读这篇论文

  • 学习扩散模型和GAN训练如何结合

Contribution

  • GAN的采样优势(一次采样)与扩散模型的核心去噪思想结合,提出一个高效的图像到图像翻译模型
  • 提出收实用而简单的GAN模型收敛度量方式,与其最优性的原始理论描述一致
  • 通过学习扩散关注鉴别器平均熵,ATME通过打破生成器和鉴别器之间的信息不对称来帮助提高训练稳定性,从而在i2i translation任务中获得更好的性能

Method

ATME

  • Maxwell's demon
    • 在GAN博弈中,由于补丁鉴别器知道两个容器中粒子的速度,因此它引入的信息增益类似于麦克斯韦妖的信息增益。我们建议通过让生成器执行相应的最大熵状态来激励适当的平衡-将纳什均衡视为热平衡。
  • 实现方式:
    • 向生成器中输入判别器的信息:为生成器赋予一个鉴别器决策的“无序”状态的概念,这是它的熵的替代品。(Dt表示判别器在training epoch为t 的输出)
    • 引入可学习映射(从t-1 步到t步),他具有以下性质
      • Dt0.5D_t \rightarrow 0.5趋向于最大熵时,W(Dt)wW(D_t)\rightarrow w趋于常数
      • W(Dt)W(Dt1)W(D_t)-W(D_{t-1})和时间无关,近似于Gaussian
    • 生成器输入
      • xt=x0+x0W(Dt1)x_t= x_0+x_0W(D_{t-1})
      • 其中x0x_0是源图片 W(Dt1)W(D_{t-1})相当于扩散模型的噪声
      • 在训练过程中让G去除该噪声,以捕获正确的映射x→y。D通过W(Dt)W (D_t)寻求最大熵状态
      • 注意 时间t的设置t=E[W(Dt1)]t =E[W(D_{t-1})]
    • Loss
      • LATMEt(G,D)=LGANt(G,D)+λLL1t(G)L^t_{ATME}(G,D)=L^t_{GAN}(G,D)+\lambda L^t_{L1}(G)
  • Model architecture

image.png

  • Patch discriminator 遵循pix2pix的实现[17]。
  • Generator: Unet 、并引入了收听判别器的熵态的模块g,以及去除虚假的高频模式的模块f

Experiment

image.png

image.png

image.png

image.png