DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

1. Introduction

同样是有两个连续的程序，即运动监测和点跟踪。

特别地，首先优化第 $t$ 轮隐向量来最小化运动监测的loss。随着diffusion latent的变化，控制点(handle points)可能也会随之变化。因此，在运动监测后面会跟一个点跟踪操作，来保证控制点的位置踪迹始终是最新的。

2. Methodology

2.1. Preliminaries on Diffusion Models

去噪扩散概率模型（DDPM）构成了潜在生成模型的一个系列。具体来说，DDPM 将概率密度 $q(Z_{0})$ 作为 $Z_0$ 与一系列潜变量 $Z_{1:T}$ 的联合分布的边际进行建模，即:

图片.png

潜变量序列 $(Z_{T},Z_{T-1},\dots,Z_{1},Z_{0})$ 形成了一个马尔可夫链。在这篇文章中， $Z_0$ 代表用户给定的初始图片， $Z_t$ 代表经过了 $t$ 次diffusion操作之后对应的“噪声图片”。

图片.png

2.2. Method Overview

Our proposed DRAGDIFFUSION aims at optimizing a certain diffusion latent to achieve interactive point-based image editing.

首先在diffusion模型上微调了LoRA，来重构用户输入的图片。如此可以更好地保护输入图片中对象的特性和风格。
然后在输入图像上应用了DDIM inversion to obtain the diffusion latent of a certain step $t$ .
随后，重复地将动作监督和点跟踪应用到优化之前获得的第 $t$ 个diffusion latent上，来将控制点（handle points）上的内容 “drag”向目标点（target points）.

在编辑的过程中，会应用正则化项，以确保图像的“unmasked”区域保持不变。最后，优化后的第 $t$ 步diffusion latent通过DDIM去噪来获得编辑后的结果。图2给出了方法概览。

2.3. Motion Supervision and Point Tracking

这部分介绍了运动监督迭代和diffusion模型点跟踪的细节

Motion supervision:

输入图像表示为 $z_0$ ，第 $t$ 层的扩散编码（即第t步DDIM Inversion的结果 diffusion latent）表示为 $z_t$ 。将第 $k$ 次迭代的运动监督中的n个handle points表示为 $\{h_i^k=(x_i^k,y_i^k) : i = 1,......,n\}$ ，其对应的target points表示为 $\{g_i=(\tilde{x}_i,\tilde{y}_i):i=1,\ldots,n\}$ 。

运动监督以UNet倒数第二个block的特征图 $F(z_t)$ 为输入，像素位置 $h_i^k$ 处的特征向量为 $\boldsymbol{F_{h_i^k}(z_t)}$ .

我们将 $\Omega(h_{i}^{k},r_{1})=\{(x,y):|x-x_{i}^{k}|\leq r_{1},|y-y_{i}^{k}|\leq r_{1}\}$ 定义为边长为 $2r_1+1$ ，以 $h_i^k=(x_i^k,y_i^k)$ 为中心的正方形块。

运动监督的第k次迭代的优化目标定义为：

其中， $\hat{z}_{t}^{k}$ 是第 $k$ 个运动监督之后的第 $t$ 步扩散编码， $d_i=\left(g_i-h_i^k\right)/\left\|g_i-h_i^k\right\|_2$ 是第 $k$ 次迭代中从第 $i$ 个控制点到第 $i$ 个目标点的归一化方向量， $M$ 是用户指定的二进制掩码，保证扩散潜码未被屏蔽的部分保持不变。当 $q+d_i$ 不是整数， $F_{q+d_i}(\hat{z}_t^k)$ 的值通过双线性插值计算。 $sg(·)$ 是停止梯度操作，防止反向移动。

优化目标第一项约束控制点移动后其附近的特征响应保持不变，第二项约束去噪之后的潜码在掩码区域之外的区域保持不变。

具体更新方法是： 给定 $\hat{z}_{t}^{k}$ ，首先应用一步DDIM去噪得到 $\hat{z}_{t-1}^{k}$ ，然后将 $\hat{z}_{t-1}^{k}$ 的未屏蔽区域正则化为与 $\hat{z}_{t-1}^{0}$ 相同，最后，执行一步梯度下降更新：

Point Tracking:

运动监督更新 $\hat{z}_{t}^{k}$ 后，控制点的位置也可能随之发生了变化，所以需要进行点跟踪来进行更新控制点。由于UNet特征可以很好的捕获点的响应，所以可以使用 $F\left(\hat{z}_t^{k+1}\right)$ 和 $F\left(\hat{z}_t^k\right)$ 来跟踪新的控制点。

具体来说，本文在方块 $\Omega(h_{i}^{k},r_{1})=\{(x,y):|x-x_{i}^{k}|\leq r_{2},|y-y_{i}^{k}|\leq r_{2}\}$ 内应用最近邻搜索来更新控制点 $h_i^k$ ，即 $h_i^{k+1}=\underset{q\in\Omega\left(h_i^k,r_2\right)}{\operatorname*{\arg\min}}\left\|F_q\left(\hat{z}_t^{k+1}\right)-F_{h_i^k}\left(z_t\right)\right\|_1.$

DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Edi