Text to image论文精读SeedSelect 使用SeedSelect微调扩散模型It’s all about where you start_texttoimage

51 阅读6分钟

img img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上物联网嵌入式知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、电子书籍、讲解视频,并且后续会持续更新

如果你需要这些资料,可以戳这里获取

I

2

I^2

I2、

I

3

I^3

I3…

I

n

I^n

In,n为3~5,目标是找到一个初始张量

z

T

G

z^G_T

zTG​,其生成的图像与训练图像相似,这种一致包括语义一致性和表现一致性:

  1. 语义一致性:

L

S

e

m

a

n

t

i

c

=

dist

v

(

μ

v

,

v

G

)

\mathcal{L}_{S e m a n t i c}=\operatorname{dist}_{v}\left(\mu_{v}, v^{G}\right)

LSemantic​=distv​(μv​,vG),其中

μ

v

\mu_{v}

μv​为真实图像集使用CLIP编码后的质心,

v

G

v^{G}

vG为生成图像使用CLIP编码后的特征,dist为欧几里得距离。 2. 表现一致性:

L

A

p

p

e

a

r

a

n

c

e

=

dist

z

(

μ

z

,

z

0

G

)

\mathcal{L}_{Appearance}=\operatorname{dist}_{z}\left(\mu_{z}, z^{G}_0\right)

LAppearance​=distz​(μz​,z0G​),其中

μ

z

\mu_{z}

μz​为真实图像集使用VAE编码后的质心,

z

G

z^{G}

zG为生成图像使用VAE编码后的特征,dist为欧几里得距离。

最终

L

T

o

t

a

l

=

λ

L

S

e

m

a

n

t

i

c

(

1

λ

)

L

A

p

p

e

a

r

a

n

c

e

c

\mathcal{L}_{Total}=λ\mathcal{L}_{S e m a n t i c} + (1-λ)\mathcal{L}_{Appearancec}

LTotal​=λLSemantic​+(1−λ)LAppearancec​

4.2、Seed Select

当用头部类训练时,模型学习将高斯分布的大部分映射到正确类的图像中。然而,对于尾部类,模型只能为该分布的有限区域生成正确的类。

那么如果可以定位分布的这些区域,就仍然可以从尾部类生成图像。基于此,提出通过在噪声空间中对种子进行优化来发现这些区域,从而提高与目标稀有概念的一小组训练图像的语义和外观一致性。

在这里插入图片描述
方法这一小节,我感觉作者并没有说的很清楚,下面是我结合图像的一些理解,如有错误,敬请指出:
如上图所示,固定VAE编码器、CLIP编码器、DDPM主扩散过程。选取部分罕见样本图像使用VAE和CLIP分别编码,然后选取罕见样本的文本c(y)作为输入,然后使用初始噪声生成图像

I

G

I^G

IG,然后将其与真实图像编码后的特征分别相比,利用语义损失和表现损失来微调,以找到合适的随机种子

z

T

G

z^G_T

zTG​。

4.3、提高选取速度和质量

Contrasting classes:当从一组C类生成图像时,作者通过使用监督对比损失进一步提高训练收敛性和图像质量。这种损失发生在语义空间;它使语义向量vG更接近其类的质心µcv,并使其远离其他类的质心。更新后的语义损失为:

L

Semantic 

=

log

e

dist

(

μ

v

c

,

v

G

)

c

C

e

dist

(

μ

v

c

,

v

G

)

\mathcal{L}_{\text {Semantic }}=-\log \frac{e^{-\operatorname{dist}\left(\mu_{v}^{c}, v^{G}\right)}}{\sum_{c^{\prime} \in C} e^{-\operatorname{dist}\left(\mu_{v}^{c^{\prime}, v^{G}}\right)}}

LSemantic ​=−log∑c′∈C​e−dist(μvc′,vG​)e−dist(μvc​,vG)​

稳定训练:最后几个去噪步骤往往能够生成高质量的图像,为了加快收敛速度,作者计算了最后k步的所有图像语义一致性损失:

L

Semantic 

=

i

=

0

k

L

Semantic 

i

\mathcal{L}_{\text {Semantic }}=\sum_{i=0}^{k} \mathcal{L}_{\text {Semantic }}^{i}

LSemantic ​=∑i=0k​LSemantic i​,通过实验,最终选取了最后2步,即k=2。

使用bootstrap加快速度:首先,使用较少的迭代次数找到完整训练集的最优zGT。然后,使用自助法对训练图像的子集进行采样,并为子集找到最优的zGST,但是从zGT开始优化并生成图像。这个过程可以重复多次,以获得多样化的图像集。这种方法的优点是可以将单个图像的优化持续时间从几分钟缩短到几秒钟。

五、实验

5.1、数据集

作者在三个常见的几次分类基准上评估了SeedSelect:

  1. CUB-200:由200种鸟类的11,788张图像组成的细粒度数据集。200种数据被分成:100类作为训练集,50类作为验证集、50类作为测试集。
  2. miniImageNet:源自标准ImageNet数据集,由50000张训练图像和10000张测试图像组成,均匀分布在所有100个类,其中64个类用于训练,16个类用于验证,20个类用于测试。
  3. CIFAR-FS:从CIFAR-100数据集[33]中获得,使用与miniImageNet采样相同的标准。64个类用于元训练,16个类用于元验证,20个类用于元测试。每个类包含600个图像。

5.2、定量结果

Few-shot识别:
在这里插入图片描述
长尾分析:
在这里插入图片描述

主观评价(基于手掌):
在这里插入图片描述

5.3、视觉效果

在这里插入图片描述

六、讨论

收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。 img img

如果你需要这些资料,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人

都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!