DALL-E如何推动一场创意革命
我使用OpenAI惊文本到图像AI工具的第一周的感想
"月球上的泰迪熊,数字艺术",由DALL-E创作。
另外:这篇文章中的所有图片都是用人工智能生成的。
I.
每隔几年,就会有一项技术出现,将世界整齐地分成前后两部分。我记得第一次看到YouTube视频嵌入网页;第一次在设备间同步Evernote文件;第一次扫描附近人的推特,看他们对我参加的音乐会的评价。
我还记得我第一次使用Shazam的歌曲,召唤Uber,并使用Meerkat直播。我认为,使这些时刻脱颖而出的是,一些不可预知的新的可能性被解锁的感觉。当你可以轻松地将视频片段添加到网络上时,网络会变成什么样子?当你可以从云端召唤任何文件到你的手机时?当你可以向世界广播自己的时候?
我已经有几年没有看到那种让我给朋友打电话说:你一定要看看这个新生技术。但是这周我看到了,因为我有一个新的东西要加入到名单中。这是一个名为DALL-E的图像生成工具,虽然我对它最终将如何使用知之甚少,但它是我开始撰写本通讯以来看到的最引人注目的新产品之一。
从技术上讲,有关的技术是DALL-E2。它是由OpenAI创造的,这是一家成立7年的旧金山公司,其使命是创造一个安全和有用的人工通用智能。OpenAI在其领域内已经因创造GPT-3(一种从简单提示中生成复杂文本段落的强大工具)和Copilot(一种帮助软件工程师自动编写代码的工具)而闻名。
DALL-E--超现实主义者萨尔瓦多-达利和皮克斯的WALL-E的谐音--采用文本提示并从中生成图像。2021年1月,该公司推出了该工具的第一个版本,它被限制在256×256像素的正方形。
但第二个版本在4月进入研究测试阶段,感觉是一次彻底的飞跃。现在的图像是1024×1024像素,并且可以采用新的技术,如 "内画"--用一个或多个元素替换一个图像。(想象一下,拍一张碗里的橙子的照片,然后用一个苹果代替它)。DALL-E在理解物体之间的关系方面也有改进,这有助于它描绘出越来越多的梦幻场景--考拉灌篮,宇航员骑马。
几个星期以来,达利公司生成的图像一直占据着我的Twitter时间线。在我思考了我可以用这项技术做什么之后--也就是在上面浪费无数的时间--OpenAI的一个非常好的人同情我,邀请我进入研究测试版。一位女发言人今天告诉我,现在可以使用的人数已经达到了数千人;该公司希望每周能增加1000人。
Ⅱ
在创建账户时,OpenAI让你同意DALL-E的内容政策,该政策旨在防止该平台的大多数明显的潜在滥用行为。不允许有仇恨、骚扰、暴力、性或裸体,该公司还要求你不要创建与政治或政治家有关的图像。这里值得注意的是,在OpenAI的联合创始人中,埃隆-马斯克(Elon Musk)是有名的,他对Twitter的一套限制性更少的政策很生气。他在2018年离开了其董事会)。
DALL-E还通过将关键词(例如 "拍摄")添加到阻止列表中来防止很多潜在的图像创作。你也不允许用它来创建旨在欺骗的图像--不允许深度伪造。而且,虽然没有禁止试图以公众人物为基础制作图像,但你不能在没有他们的许可下上传人物照片,而且该技术似乎会稍微模糊大多数人的脸,以使人们清楚地看到图像是被操纵的。
一旦你同意这一点,你就会看到DALL-E令人愉快的简单界面:一个文本框,邀请你在内容政策允许的情况下创造你能想到的任何东西。想象一下,把谷歌搜索栏当作Photoshop来使用--这就是DALL-E。借用搜索引擎的一些灵感,DALL-E包括一个 "给我一个惊喜 "的按钮,根据过去的成功经验,预先在文本中填充一个建议的查询。我经常用它来获得尝试艺术风格的想法,否则我可能从未考虑过--例如,"微距35毫米照片",或像素艺术。
对于我的每一个最初的查询,DALL-E将需要大约15秒来生成10张图片。(本周早些时候,图像的数量减少到6张,以允许更多的人访问)。几乎每一次,我都会发现自己大声咒骂,并为结果的好坏而发笑。
例如,这是一个来自 "一只打扮成消防员的柴犬 "的结果。
这是 "一只斗牛犬打扮成巫师,数字艺术 "的结果。
我非常喜欢这些假的人工智能狗。我想收养它们,然后为它们写儿童读物。如果metaverse真的存在,我想让它们和我一起去那里。
你知道还有谁能来吗?"戴帽子的青蛙,数字艺术。"
为什么他在字面上是完美的?
在我们的SidechannelDiscord服务器上,我开始接受请求。有人要求描绘 "夜晚的元气世界,数字艺术"。我想,回来的东西是适当的宏伟和抽象的。
我不会试图在这里解释DALL-E是如何制作这些图像的,部分原因是我自己还在努力理解它。(所涉及的核心技术之一,"扩散",在去年谷歌人工智能的这篇博文中得到了很好的解释)。但我一再被这种图像生成技术的创造性所震撼。
以另一位有DALL-E权限的读者在我的讨论区分享的两个例子为例。首先,看看 "股票图表崩溃前的熊市经济学家,数字艺术 "的一组结果。
其次,"一位牛市经济学家在股票市场飙升的图表前,有上升线,合成波,数字艺术。"
令人震惊的是,《达利》在这里捕捉到了情感的程度:熊的惊恐和愤懑,以及牛的攻击性。将这些描述为 "创意 "似乎是错误的--我们在这里看到的不过是概率性的猜测--但它们对我的影响与看到真正有创意的东西是一样的。
DALL-E的另一个引人注目的方面是它会试图以各种方式解决一个问题。例如,当我要求它向我展示 "一个有眼睛的美味肉桂包 "时,它必须想出如何描绘眼睛。
有时,DALL-E会像我一样,在面包卷上添加一对看起来像塑料的眼睛。其他时候,它用糖霜中的负空间来创造眼睛。有一次,它用微型肉桂卷来做眼睛。
那是我大声咒骂并开始大笑的时候之一。
III.
这样的技术会变成什么?
DALL-E是我迄今为止看到的最先进的图像生成工具,但它远不是唯一的工具。我还轻轻地试验了一个类似的工具,名为Midjourney,它也在测试阶段;谷歌已经宣布了另一个,名为Imagen,但还没有让外人尝试。第三个工具,DALL-E Mini,在过去几天里产生了一系列的病毒图片;不过它与OpenAI或DALL-E没有关系,我想开发者很快就会收到一封停止使用的信。
OpenAI告诉我,它还没有就DALL-E是否以及如何在某一天变得更普遍地可用做出任何决定。目前的研究测试版的重点是人们如何使用这项技术,根据需要调整工具和内容政策。
然而,艺术家们为DALL-E发现的使用案例的数量已经令人惊讶。一位艺术家正在使用DALL-E为社交应用程序创建增强现实过滤器。迈阿密的一位厨师正在用它来获得如何摆放菜肴的新想法。本-汤普森(Ben Thompson)写了一篇有先见之明的文章,讲述了DALL-E如何被用来在元宇宙中创造极其廉价的环境和物体。
担心这种自动化会对专业插画师造成什么影响是很自然的,也是恰当的。很可能会失去许多工作。然而,我不禁想,像DALL-E这样的工具在他们的工作流程中可能是有用的。例如,如果他们在开始之前要求DALL-E为他们勾勒出一些概念,会怎么样?这个工具可以让你创建任何图像的变体;我用它来建议替代的Platformerlogo。
我将坚持使用我已经得到的那个。但是,如果我是一个插图画家,我可能会欣赏这些替代建议,如果只是为了获得灵感的话。
还值得考虑的是,这些工具可能为那些从未想过(或负担得起)雇用插画师的人开辟了什么创造性的潜力。小时候,我自己写漫画书,但我的插图技能从未取得很大进展。如果我可以指示DALL-E为我画出所有的超级英雄,而不是这样呢?
一方面,这似乎不像是大多数人每天都会使用的那种工具。然而,我想象在未来的几个月和几年里,我们会发现像这样的技术的创造性应用越来越多:在电子商务、社交应用程序、家庭和工作中。对于艺术家来说,它看起来可能是我们所见过的最强大的重新混合文化的工具之一--假设版权问题得到解决的话。(据悉,使用人工智能生成受保护作品的图像是否被认为是合理使用,还不完全清楚。如果你想看DALL-E对 "蝙蝠侠吃三明治 "的看法,请给我发邮件)。
我怀疑我们也会看到这种工具的一些有害应用。虽然我相信OpenAI会对DALL-E的滥用实施强有力的政策,但肯定会有类似的工具出现,并对内容的管理采取更多随心所欲的方法。人们已经在创造恶意的、通常是色情的深层假象,用今天可用的粗糙工具来骚扰他们的前男友;这种技术只会变得更好。
通常的情况是,当一项新技术出现时,我们专注于它更快乐和更异想天开的用途,却忽略了它在未来可能被滥用的情况。尽管我对使用DALL-E感到兴奋,但我也很担心类似的工具在不太谨慎的公司手中会做什么。
同样值得思考的是,即使是对这项技术的积极使用,在规模上也会产生什么影响。当我们在网上遇到的大多数图像都是由人工智能创造的时候,这对我们的现实感有什么影响?我们如何知道我们所看到的东西是真实的?
目前,DALL-E感觉是消费科技史上的一个突破。问题是,几年后我们是否会认为它是一场创造性革命的开始,还是更令人担忧的事情。未来已经在这里,而且每周增加1000个用户。现在是讨论其影响的时候了,在世界其他地方得到它之前。








