一天天吹DALL·E 2,我不信它没缺点

627 阅读3分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第21天,点击查看活动详情

DALL·E 2

随着扩散模型的崛起涌现出来很多优秀的工作。比如这个:DALL·E 2 文本到图像生成都给我卷起来。DALL·E 2比较新,效果看似也很炸裂。

比如下图,泰迪熊在时代广场滑滑板。我们可以看到DALL·E 2能在保持语义不变的情况下生成多样的、保真的图像。

image.png

再看看论文开篇的九宫格大图,效果也是针不戳。

image.png

但是作者比较实在啊,作者说我们肯定是把生成效果比较好的拿出来让你们看看啊,效果不好的谁告诉你啊。所以今天我们就扒一扒DALL·E模型存在的一些缺陷。

不能很好地结合物体及其属性

image.png

“a red cube on top of a blue cube” 生成的图像如上所示,一个蓝色方块上放一个红色方块。我们可以看到左边DALL·E 2(unCLIP)的效果是远不如GLIDE模型的。

很有可能是因为用了CLIP模型的原因。CLIP模型在学习过程中只考虑文本相似性,不会去了解其他的信息,所以作者认为导致这种无法区分物体和属性的缺陷的原因是CLIP模型引入的。

图片文字问题

image.png

当使用DALL·E生成的图片带有文字的时候,文字是错误的,“A sign that says deep learning.” ,一个牌子上写着“deep learning”,可以看到上图中没一个对的。

作者认为导致这个的原因是文本编码器使用BPE编码导致的,BPE编码是类似于词根词缀那种拆分单词进行编码的形式,不是整个单词去编码,很有可能会导致文字错误。

不能生成复杂场景,无法生成过多细节

image.png

第一个例子是A high quality photo of a dog playing in a green field next to a lake,一只小狗在草坪上玩耍,边上还有个湖。

讲道理我认为图已经生成的挺好的了,但是作者任务还不够完美,都是近景照,像网图等。

第二个例子是A high quality photo of Times Square. 生成一个高清的时代广场的图,乍一看觉得生成的还可以,如果你图片如果你方法看,它是没有细节的,告示牌上都是随机生成的色块,没有任何语义信息。细节缺失十分严重。


以上就是DALL·E 2的作者团认为存在的几个重要的问题。为什么要单独拎出来缺陷看,做学术,有缺陷才会有改进,虽然我们可能无法触及大佬的这些项目,但是积累思路,积攒经验也是必不可少的一步。