DALL-E如何推动一场创意革命

我使用OpenAI惊文本到图像AI工具的第一周的感想

"月球上的泰迪熊，数字艺术"，由DALL-E创作。

另外：这篇文章中的所有图片都是用人工智能生成的。

每隔几年，就会有一项技术出现，将世界整齐地分成前后两部分。我记得第一次看到YouTube视频嵌入网页；第一次在设备间同步Evernote文件；第一次扫描附近人的推特，看他们对我参加的音乐会的评价。

我还记得我第一次使用Shazam的歌曲，召唤Uber，并使用Meerkat直播。我认为，使这些时刻脱颖而出的是，一些不可预知的新的可能性被解锁的感觉。当你可以轻松地将视频片段添加到网络上时，网络会变成什么样子？当你可以从云端召唤任何文件到你的手机时？当你可以向世界广播自己的时候？

我已经有几年没有看到那种让我给朋友打电话说：你一定要看看这个新生技术。但是这周我看到了，因为我有一个新的东西要加入到名单中。这是一个名为DALL-E的图像生成工具，虽然我对它最终将如何使用知之甚少，但它是我开始撰写本通讯以来看到的最引人注目的新产品之一。

从技术上讲，有关的技术是DALL-E2。它是由OpenAI创造的，这是一家成立7年的旧金山公司，其使命是创造一个安全和有用的人工通用智能。OpenAI在其领域内已经因创造GPT-3（一种从简单提示中生成复杂文本段落的强大工具）和Copilot（一种帮助软件工程师自动编写代码的工具）而闻名。

DALL-E--超现实主义者萨尔瓦多-达利和皮克斯的WALL-E的谐音--采用文本提示并从中生成图像。2021年1月，该公司推出了该工具的第一个版本，它被限制在256×256像素的正方形。

但第二个版本在4月进入研究测试阶段，感觉是一次彻底的飞跃。现在的图像是1024×1024像素，并且可以采用新的技术，如 "内画"--用一个或多个元素替换一个图像。(想象一下，拍一张碗里的橙子的照片，然后用一个苹果代替它）。DALL-E在理解物体之间的关系方面也有改进，这有助于它描绘出越来越多的梦幻场景--考拉灌篮，宇航员骑马。

几个星期以来，达利公司生成的图像一直占据着我的Twitter时间线。在我思考了我可以用这项技术做什么之后--也就是在上面浪费无数的时间--OpenAI的一个非常好的人同情我，邀请我进入研究测试版。一位女发言人今天告诉我，现在可以使用的人数已经达到了数千人；该公司希望每周能增加1000人。

Ⅱ

在创建账户时，OpenAI让你同意DALL-E的内容政策，该政策旨在防止该平台的大多数明显的潜在滥用行为。不允许有仇恨、骚扰、暴力、性或裸体，该公司还要求你不要创建与政治或政治家有关的图像。这里值得注意的是，在OpenAI的联合创始人中，埃隆-马斯克(Elon Musk)是有名的，他对Twitter的一套限制性更少的政策很生气。他在2018年离开了其董事会）。

DALL-E还通过将关键词（例如 "拍摄"）添加到阻止列表中来防止很多潜在的图像创作。你也不允许用它来创建旨在欺骗的图像--不允许深度伪造。而且，虽然没有禁止试图以公众人物为基础制作图像，但你不能在没有他们的许可下上传人物照片，而且该技术似乎会稍微模糊大多数人的脸，以使人们清楚地看到图像是被操纵的。

一旦你同意这一点，你就会看到DALL-E令人愉快的简单界面：一个文本框，邀请你在内容政策允许的情况下创造你能想到的任何东西。想象一下，把谷歌搜索栏当作Photoshop来使用--这就是DALL-E。借用搜索引擎的一些灵感，DALL-E包括一个 "给我一个惊喜 "的按钮，根据过去的成功经验，预先在文本中填充一个建议的查询。我经常用它来获得尝试艺术风格的想法，否则我可能从未考虑过--例如，"微距35毫米照片"，或像素艺术。

对于我的每一个最初的查询，DALL-E将需要大约15秒来生成10张图片。(本周早些时候，图像的数量减少到6张，以允许更多的人访问）。几乎每一次，我都会发现自己大声咒骂，并为结果的好坏而发笑。

例如，这是一个来自 "一只打扮成消防员的柴犬 "的结果。

这是 "一只斗牛犬打扮成巫师，数字艺术 "的结果。

我非常喜欢这些假的人工智能狗。我想收养它们，然后为它们写儿童读物。如果metaverse真的存在，我想让它们和我一起去那里。

你知道还有谁能来吗？"戴帽子的青蛙，数字艺术。"

为什么他在字面上是完美的？

在我们的SidechannelDiscord服务器上，我开始接受请求。有人要求描绘 "夜晚的元气世界，数字艺术"。我想，回来的东西是适当的宏伟和抽象的。

我不会试图在这里解释DALL-E是如何制作这些图像的，部分原因是我自己还在努力理解它。(所涉及的核心技术之一，"扩散"，在去年谷歌人工智能的这篇博文中得到了很好的解释）。但我一再被这种图像生成技术的创造性所震撼。

以另一位有DALL-E权限的读者在我的讨论区分享的两个例子为例。首先，看看 "股票图表崩溃前的熊市经济学家，数字艺术 "的一组结果。

其次，"一位牛市经济学家在股票市场飙升的图表前，有上升线，合成波，数字艺术。"

令人震惊的是，《达利》在这里捕捉到了情感的程度：熊的惊恐和愤懑，以及牛的攻击性。将这些描述为 "创意 "似乎是错误的--我们在这里看到的不过是概率性的猜测--但它们对我的影响与看到真正有创意的东西是一样的。

DALL-E的另一个引人注目的方面是它会试图以各种方式解决一个问题。例如，当我要求它向我展示 "一个有眼睛的美味肉桂包 "时，它必须想出如何描绘眼睛。

有时，DALL-E会像我一样，在面包卷上添加一对看起来像塑料的眼睛。其他时候，它用糖霜中的负空间来创造眼睛。有一次，它用微型肉桂卷来做眼睛。

那是我大声咒骂并开始大笑的时候之一。

III.

这样的技术会变成什么？

DALL-E是我迄今为止看到的最先进的图像生成工具，但它远不是唯一的工具。我还轻轻地试验了一个类似的工具，名为Midjourney，它也在测试阶段；谷歌已经宣布了另一个，名为Imagen，但还没有让外人尝试。第三个工具，DALL-E Mini，在过去几天里产生了一系列的病毒图片；不过它与OpenAI或DALL-E没有关系，我想开发者很快就会收到一封停止使用的信。

OpenAI告诉我，它还没有就DALL-E是否以及如何在某一天变得更普遍地可用做出任何决定。目前的研究测试版的重点是人们如何使用这项技术，根据需要调整工具和内容政策。

然而，艺术家们为DALL-E发现的使用案例的数量已经令人惊讶。一位艺术家正在使用DALL-E为社交应用程序创建增强现实过滤器。迈阿密的一位厨师正在用它来获得如何摆放菜肴的新想法。本-汤普森（Ben Thompson）写了一篇有先见之明的文章，讲述了DALL-E如何被用来在元宇宙中创造极其廉价的环境和物体。

担心这种自动化会对专业插画师造成什么影响是很自然的，也是恰当的。很可能会失去许多工作。然而，我不禁想，像DALL-E这样的工具在他们的工作流程中可能是有用的。例如，如果他们在开始之前要求DALL-E为他们勾勒出一些概念，会怎么样？这个工具可以让你创建任何图像的变体；我用它来建议替代的Platformerlogo。

我将坚持使用我已经得到的那个。但是，如果我是一个插图画家，我可能会欣赏这些替代建议，如果只是为了获得灵感的话。

还值得考虑的是，这些工具可能为那些从未想过（或负担得起）雇用插画师的人开辟了什么创造性的潜力。小时候，我自己写漫画书，但我的插图技能从未取得很大进展。如果我可以指示DALL-E为我画出所有的超级英雄，而不是这样呢？

一方面，这似乎不像是大多数人每天都会使用的那种工具。然而，我想象在未来的几个月和几年里，我们会发现像这样的技术的创造性应用越来越多：在电子商务、社交应用程序、家庭和工作中。对于艺术家来说，它看起来可能是我们所见过的最强大的重新混合文化的工具之一--假设版权问题得到解决的话。(据悉，使用人工智能生成受保护作品的图像是否被认为是合理使用，还不完全清楚。如果你想看DALL-E对 "蝙蝠侠吃三明治 "的看法，请给我发邮件）。

我怀疑我们也会看到这种工具的一些有害应用。虽然我相信OpenAI会对DALL-E的滥用实施强有力的政策，但肯定会有类似的工具出现，并对内容的管理采取更多随心所欲的方法。人们已经在创造恶意的、通常是色情的深层假象，用今天可用的粗糙工具来骚扰他们的前男友；这种技术只会变得更好。

通常的情况是，当一项新技术出现时，我们专注于它更快乐和更异想天开的用途，却忽略了它在未来可能被滥用的情况。尽管我对使用DALL-E感到兴奋，但我也很担心类似的工具在不太谨慎的公司手中会做什么。

同样值得思考的是，即使是对这项技术的积极使用，在规模上也会产生什么影响。当我们在网上遇到的大多数图像都是由人工智能创造的时候，这对我们的现实感有什么影响？我们如何知道我们所看到的东西是真实的？

目前，DALL-E感觉是消费科技史上的一个突破。问题是，几年后我们是否会认为它是一场创造性革命的开始，还是更令人担忧的事情。未来已经在这里，而且每周增加1000个用户。现在是讨论其影响的时候了，在世界其他地方得到它之前。