修订AI图像：一场令人沮丧的博弈本文深入探讨了修订AI生成图像时的技术难题。通过多个实验案例，展示了即便使用先进的模型，

在社交媒体上流传着这样一个匿名帖子：一位工作室艺术总监试图雇佣AI提示工程师来创作艺术，结果发现他们完全无法执行细微的修改要求。当要求从画面中移除一个人或修正透视错误时，提示工程师们往往会交出一个完全不同的艺术作品，或者做出其他不符合要求的奇怪改动。我完全相信，尝试修订AI生成的艺术确实会令人如此沮丧。

例如，我最近要求ChatGPT4：

“请生成一张霸王龙在盒子里的图片。盒子应该是封闭的，霸王龙完全不可见。”

我得到了一个完全合理的回应：“听起来您想要一张暗示霸王龙存在但并未实际显示它的图片，因为它被完全封闭在一个盒子里。既然霸王龙不可见，您希望强调盒子或场景的哪些细节或主题来暗示恐龙的存在？”

我确认道：“霸王龙不可见，只留一些透气孔让它舒适。”

然后ChatGPT（使用DALL-E3生成图像）给了我这张图：

很明显，这并不完全符合要求——这是一个奇怪的盒子，侧面的符号尤其令人困惑。那是鱿鱼？一只栖息的捕蝇鸟？擀面杖？ChatGPT有一个功能，可以擦除图像的某些部分，并提交更多文本来描述应如何修改这些部分。所以，我遮住了那行符号，并要求：“将这些符号替换为霸王龙的剪影和‘危险’字样。”

ChatGPT生成了这张：

这算是部分满足了我的要求，但那看起来不太像霸王龙。我再次擦除了盒子的那一部分，并要求进行更多修改：“霸王龙应该面向‘危险’字样。它的剪影需要有霸王龙那种强壮、沉重的感觉，尤其是在头部和颈部。”

ChatGPT给了我这张：

恐龙是背对着的，它仍然没有面向“危险”字样，而且仍然不是一个很好的霸王龙剪影。我再次要求修改：“保留厚重的深色字体，但将警告文字颜色改回红色。霸王龙仍需要面向文字，而不是背对，而且它的下颌太重了。”

ChatGPT回应：

这……不行。这不算面向文字，下颌仍然不对，而且那个单词写的到底是“danger”还是“dandier”？

“霸王龙需要在文字旁边，而不是在文字上面。它肩膀上多出来的那个尖刺状隆起是什么？它的下颌还是太重了。”

ChatGPT给出了这个回应：

我的回应：“……完美了。现在能不能保持所有东西——纹理、光照、材质——都不变，但让盒子看起来大得多？现在看起来它只有膝盖高。它需要大到足以容纳一只霸王龙。”

ChatGPT的修订版：

似乎我要求的修改越多，结果就越糟。如果我允许它修改整个图像，整个过程就会重新开始。

这是一个类似的修订过程，这次是试图通过修订得到更漂亮的馅饼。

我：“请生成一张长颈鹿进入英国烘焙大赛的图像。”

修订1：我擦除了操作台，并要求长颈鹿正在制作一个带有复杂格子图案的樱桃派。

下面是修订5，到了这个阶段，情况变得很明显：我越要求复杂的格子图案，它就变得越潦草；我越要求深盘馅饼，馅饼就变得越薄；我越恳求只做一个馅饼，得到的馅饼就越多。而当我不将修改限制在图像的特定部分时，我得到的结果会好得多，但图像也会发生巨大的重置。对于下面的图像，我要求ChatGPT/DALLE3保持每个细节完全相同，但要让我们能看到帐篷外正在下雨。结果它不仅完全改变了图像，而且根本没下雨。

我的提示：“完美。请保持图像完全不变，除了要让我们能看到帐篷外正下着大雨。”

在这张图中，我要求一条蛇画一幅熊的画，然后擦除了那幅画，并要求熊四肢着地站立。修订后的版本差得多。

图片描述：左边，一条彩虹色的蛇盘绕在画架前。（蛇的身体分成了两截，所以我猜它是一条叉尾蛇。）画架上是一幅坐着的熊的画，相当逼真。右边，熊被一个更小、质量差得多的蛇的复制品取代了。熊不见了。

这是另一个例子，我要求一只鹿在杂货店里，然后要求把鹿换成一只幼鹿。到第5次修订（尝试给幼鹿加上斑点，试图修正使其看起来像悬空的阴影）时，鹿的质量和杂货店的背景都变差了。

图片描述：在左边的原始图像中，鹿看起来有点像塑料模特，但在光照和阴影方面与杂货店的其余场景是匹配的。在右边的修订版图像中，鹿变成了一只有着奇怪平面阴影的幼鹿，像是叠加在场景上而不是站在场景中。它的眼睛异常水灵且3D，但幼鹿的其余部分却是正面直视镜头，没有任何景深感。杂货店过道的背景被修改后，货架失去了所有细节，不再像杂货店，天花板上的灯具现在延伸到了地板里。

这是一个一次性的例子，我要求ChatGPT/DALL-E3生成一张受损的耶稣壁画，然后将其修复如新。

图片描述：左边的图像似乎是一幅受损的耶稣壁画（有着标志性的长手指，连接到两只手上）。中间的图像除了耶稣的脸和光环外，其他地方看起来一样，不再有损坏的痕迹。然而，耶稣的脸现在变得异常光滑闪亮，与画作的其余部分不再协调，他的眼睛是奇怪的蓝黑色螺旋。右边的图像中，耶稣的脸是完全不同、近乎喷绘的风格，他的眼睛也完全不匹配了。

所以，每次要求AI修订图像时，它要么重新开始，要么让情况变得越来越糟。使用AI生成图像的人必须调整他们的创意愿景以适应系统输出的结果——或者抱着“任何符合要求的东西都足够好”的心态。

还有一个事实是，图像生成模型与那些作品未经许可或补偿就被用于训练这些模型的艺术家直接竞争。而且，训练和运行这些模型会产生巨大的环境足迹。AI生成的图像已成为一种迹象，表明广告、搜索结果或研究论文可能是骗局。

我并不惊讶有些地方在寻找廉价的填充图像，而不介意AI生成图像带来的问题。但对其他所有人来说，我认为情况正迅速变得明朗：你需要的是真正的艺术家，而不是冒牌货。

额外内容：一只变得糟糕透顶的独角兽FINISHED