ChatGPT Images 2.0发布:OpenAI让AI绘图也学会了“思考”

6 阅读5分钟

\n\nOpenAI推出ChatGPT Images 2.0,引入原生推理能力,使其从单纯的绘图工具进化为“视觉思维伙伴”。该模型支持多图生成、联网搜索和多语言文本渲染,显著提升了创作一致性。

译自:With the launch of ChatGPT Images 2.0, OpenAI now "thinks" before it draws

作者:Darryl K. Taft

OpenAI 已经发布了 ChatGPT Images 2.0,将其新的图像模型定位为从渲染工具向公司所谓的“视觉思维伙伴”的转变。

这个于周二首次亮相的“伙伴”是一个能够通过复杂视觉任务进行推理、验证自身输出,并能从单个提示词生成多达八张连贯图像的系统。

该模型通过 API 以 gpt-image-2 的形式提供,并正在向所有 ChatGPT 和 Codex 用户推广。需要模型思考能力的高级功能仅限 Plus、Pro 和 Business 订阅用户。

Images 2.0 的功能

OpenAI 在一篇博客文章中声称,Images 2.0 是其首个具有原生思考能力的图像模型。当在 ChatGPT 中选择推理或 Pro 模型时,系统可以搜索网页获取实时信息,根据单个提示词生成多张不同的图像,并在交付结果之前交叉检查自己的输出。这使其不同于传统的图像生成器,后者每个提示词仅产生一个输出且缺乏自我修正循环。

该模型以两种不同的模式运行:“即时”(Instant)模式用于快速输出,而“思考”(Thinking)模式则采用更慢、更审慎的方法——在生成图像之前对图像结构进行推理。公司表示,思考模式专门设计用于在多个帧之间保持角色和物体的一致性,为以前模型难以应对的漫画、分镜脚本和多场景设计开启了工作流。

“当在 ChatGPT 中选择思考或 pro 模型时,Images 2.0 可以搜索网页获取实时信息,从一个提示词创建多张不同的图像,并反复检查自己的输出,”OpenAI 在一篇博客文章中写道。“有了思考能力,模型可以承担从创意到图像之间更多的重任,尤其是在准确性、最新信息、一致性和视觉衔接最为重要的时候。”

公司表示,该模型可以处理经常让图像生成器崩溃的精细元素:微小文本、图标、UI 元素和紧凑的构图。

Images 2.0 的卓越之处

OpenAI 将此次发布描述为在指令遵循、物体放置和密集文本渲染方面的阶跃式变化。公司表示,该模型可以处理经常让图像生成器崩溃的精细元素,如微小文本、图标、UI 元素和紧凑的构图——通过 API 最高支持 2K 分辨率。

多语言支持也得到了大幅扩展。该模型在渲染非拉丁文本方面表现出显著进步,特别是在日语、韩语、中文、印地语和孟加拉语方面。公司表示,早期的图像模型可以近似模拟非拉丁脚本,但在密集文本中经常产生乱码或不连贯的结果。

灵活的长宽比——从 3:1 宽到 1:3 高——意味着生成的输出无需后期处理即可直接用于横幅、手机屏幕、海报和社交媒体图形。

竞争白热化

此次发布正值图像生成领域的竞争加剧。截至 4 月初的 LM Arena 文生图排行榜显示,Google 的 Gemini 模型位居第一,OpenAI 的 gpt-image-1.5 位居第二。DALL-E 2 和 DALL-E 3 将于 5 月 12 日退役,这使得下一代替代品在商业和战略上都变得必要。

该模型的知识截止日期为 2025 年 12 月,OpenAI 表示这使得解释说明、教育图表和视觉摘要的输出更加准确且符合语境,在这些领域,正确性与美感同样重要。

Codex 集成

Images 2.0 也可在 OpenAI 的编码环境 Codex 中使用,从而在用于应用开发、幻灯片和其他交付物的同一工作空间内进行视觉创作。用户可以生成 UI 方向和原型,比较选项,并将最强的结果推送到实时产品中,而无需切换工具。Codex 用户可以使用现有的 ChatGPT 订阅访问图像生成,无需单独的 API 密钥。

开发者访问

开发者可以通过标准 API 访问 gpt-image-2。定价因输出质量和分辨率而异。2K 以上的输出可在 API 测试版中使用,但在某些情况下可能会产生不一致的结果。

早期企业用户注意到,该模型不仅限于执行提示词。“该模型不仅仅是在渲染图像。它在幕后解释简报、理解受众并做出创意决策,”Canva 的创意策略师 Dwayne Koh 在 OpenAI 提供的一份声明中表示。

局限性

OpenAI 承认,该模型在需要连贯物理世界模型的任务上仍然面临困难——折纸指南、魔方、反向或倾斜表面上的物体。非常精细或重复的视觉细节(如沙粒)仍可能超出模型的保真度限制。标签和部件图解可能需要人工审查。公司将这些描述为“未来工作的重要前沿”。

早期用户标记了一个单独的实际问题:迭代编辑会遇到边际效用递减。沃顿商学院教授兼 AI 研究员 Ethan Mollick 指出,虽然图像很出色,但该模型表现出了他所谓的“典型图像生成问题”——编辑在前一两轮效果很好,然后进展就停滞了。他的解决方法是:将图像放入新的对话中以重置上下文。

下一步计划

OpenAI 正在将图像生成视为核心界面层,而不是一个独立的功能。该公司似乎将图像押注为下一个竞争前沿,有信号表明图像生成正成为与 AI 系统交互的主要模式,而不仅仅是补充能力。工智能