持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第21天，点击查看活动详情

DALL·E 2

随着扩散模型的崛起涌现出来很多优秀的工作。比如这个：DALL·E 2 文本到图像生成都给我卷起来。DALL·E 2比较新，效果看似也很炸裂。

比如下图，泰迪熊在时代广场滑滑板。我们可以看到DALL·E 2能在保持语义不变的情况下生成多样的、保真的图像。

再看看论文开篇的九宫格大图，效果也是针不戳。

但是作者比较实在啊，作者说我们肯定是把生成效果比较好的拿出来让你们看看啊，效果不好的谁告诉你啊。所以今天我们就扒一扒DALL·E模型存在的一些缺陷。

不能很好地结合物体及其属性

用 “a red cube on top of a blue cube” 生成的图像如上所示，一个蓝色方块上放一个红色方块。我们可以看到左边DALL·E 2（unCLIP）的效果是远不如GLIDE模型的。

很有可能是因为用了CLIP模型的原因。CLIP模型在学习过程中只考虑文本相似性，不会去了解其他的信息，所以作者认为导致这种无法区分物体和属性的缺陷的原因是CLIP模型引入的。

当使用DALL·E生成的图片带有文字的时候，文字是错误的，“A sign that says deep learning.” ，一个牌子上写着“deep learning”，可以看到上图中没一个对的。

作者认为导致这个的原因是文本编码器使用BPE编码导致的，BPE编码是类似于词根词缀那种拆分单词进行编码的形式，不是整个单词去编码，很有可能会导致文字错误。

第一个例子是A high quality photo of a dog playing in a green field next to a lake，一只小狗在草坪上玩耍，边上还有个湖。

讲道理我认为图已经生成的挺好的了，但是作者任务还不够完美，都是近景照，像网图等。

第二个例子是A high quality photo of Times Square. 生成一个高清的时代广场的图，乍一看觉得生成的还可以，如果你图片如果你方法看，它是没有细节的，告示牌上都是随机生成的色块，没有任何语义信息。细节缺失十分严重。

以上就是DALL·E 2的作者团认为存在的几个重要的问题。为什么要单独拎出来缺陷看，做学术，有缺陷才会有改进，虽然我们可能无法触及大佬的这些项目，但是积累思路，积攒经验也是必不可少的一步。