持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第21天,点击查看活动详情
DALL·E 2
随着扩散模型的崛起涌现出来很多优秀的工作。比如这个:DALL·E 2 文本到图像生成都给我卷起来。DALL·E 2比较新,效果看似也很炸裂。
比如下图,泰迪熊在时代广场滑滑板。我们可以看到DALL·E 2能在保持语义不变的情况下生成多样的、保真的图像。
再看看论文开篇的九宫格大图,效果也是针不戳。
但是作者比较实在啊,作者说我们肯定是把生成效果比较好的拿出来让你们看看啊,效果不好的谁告诉你啊。所以今天我们就扒一扒DALL·E模型存在的一些缺陷。
不能很好地结合物体及其属性
用 “a red cube on top of a blue cube” 生成的图像如上所示,一个蓝色方块上放一个红色方块。我们可以看到左边DALL·E 2(unCLIP)的效果是远不如GLIDE模型的。
很有可能是因为用了CLIP模型的原因。CLIP模型在学习过程中只考虑文本相似性,不会去了解其他的信息,所以作者认为导致这种无法区分物体和属性的缺陷的原因是CLIP模型引入的。
图片文字问题
当使用DALL·E生成的图片带有文字的时候,文字是错误的,“A sign that says deep learning.” ,一个牌子上写着“deep learning”,可以看到上图中没一个对的。
作者认为导致这个的原因是文本编码器使用BPE编码导致的,BPE编码是类似于词根词缀那种拆分单词进行编码的形式,不是整个单词去编码,很有可能会导致文字错误。
不能生成复杂场景,无法生成过多细节
第一个例子是A high quality photo of a dog playing in a green field next to a lake,一只小狗在草坪上玩耍,边上还有个湖。
讲道理我认为图已经生成的挺好的了,但是作者任务还不够完美,都是近景照,像网图等。
第二个例子是A high quality photo of Times Square. 生成一个高清的时代广场的图,乍一看觉得生成的还可以,如果你图片如果你方法看,它是没有细节的,告示牌上都是随机生成的色块,没有任何语义信息。细节缺失十分严重。
以上就是DALL·E 2的作者团认为存在的几个重要的问题。为什么要单独拎出来缺陷看,做学术,有缺陷才会有改进,虽然我们可能无法触及大佬的这些项目,但是积累思路,积攒经验也是必不可少的一步。