ChatGPT Images 2.0 正式发布（官方介绍）& 附热门社区评测OpenAI 发布 ChatGPT Ima

图像是一种语言，而非装饰。一张好的图像和一句好的文字一样——它选择、编排并揭示。它能解释原理、营造氛围、验证想法，或阐述观点。

一年前，我们发布了 ChatGPT Images，证明了 AI 创作的图像可以兼具美感与实用性。ChatGPT Images 2.0 是下一步：一个业界领先的模型，能够处理复杂的视觉任务并生成精确、可直接使用的图像。

该模型在详细指令遵循、物体精确放置与关联、密集文字渲染方面实现了质的飞跃（step change），并支持多种宽高比（aspect ratio）的图像生成。其构图能力和视觉品味意味着生成结果不再有明显的 AI 痕迹，而更像是经过刻意设计的作品。它在多语言场景下同样准确，并利用扩展的视觉和世界知识来补充细节，让你用更少的提示就能得到更智能的图像。

为了在处理最复杂的任务时扩展模型能力，Images 2.0 是我们首个具备思考能力（thinking）的图像模型。在 ChatGPT 中选择思考模型或 Pro 模型时，Images 2.0 可以搜索网络获取实时信息、根据单个提示创建多个不同图像，并自行检查输出结果。借助思考能力，模型可以在从构想到成图的整个过程中承担更多工作，尤其是在准确性、最新信息、一致性和视觉连贯性最为重要的场景下。

结合 OpenAI 推理模型的智能和对视觉世界的广泛理解，这个模型将图像生成从单纯的渲染提升为策略性设计，从工具升级为视觉系统，帮助人们将想法转化为可以理解、分享、教学和构建的成果。该模型从今天起面向所有 ChatGPT、Codex 和 API 用户开放。

更高的精度与控制力

Images 2.0 为图像创作带来了前所未有的精确度和保真度。它不仅能构思更复杂的图像，还能有效地将构想变为现实——能够遵循指令、保留要求的细节，并准确渲染那些经常让图像模型出错的精细元素：小字号文本、图标、UI 元素、密集构图和微妙的风格约束，在 API 中支持高达 2K 分辨率。你得到的不再是模糊接近你意图的东西，而是真正可用的成果。

ChatGPT 在 macOS 浏览器中的截图。用户输入”draw me a dog”，ChatGPT 用 ASCII 字符画了一只狗。前景窗口是 ChatGPT，但桌面很乱，背景里有很多杂乱的窗口（比如终端）。

ChatGPT 生成的 ASCII 狗截图

更强的多语言能力

此前，我们的图像生成模型在英语和其他拉丁字母语言中表现更一致，但在其他语言中精度下降，尤其是文字复杂或密集时。

Images 2.0 突破了这一瓶颈，具备更强的多语言理解能力，在非拉丁文字渲染方面取得了显著提升，特别是在日语、韩语、中文、印地语和孟加拉语方面。它能生成包含非英文文字的图像，不仅渲染正确，而且语言表达连贯流畅。

这不仅仅是翻译一两个标签，而是生成语言本身作为设计一部分的视觉一致性输出——从海报、图解到图表和漫画。这使得该模型在全球范围内更加实用，帮助人们用自己实际使用的语言创建视觉内容。

制作一页上色的日本少年冒险漫画样稿。画面要生动地描绘主角发现了一支魔法羽毛笔。这支笔叫做”Quill of GPT Image”。要有戏剧张力。这支魔法羽毛笔内封印着强大的力量。

补充说明：宽高比：竖版 1440x2560。笔上要有 OpenAI 的 logo。整页漫画使用日语。先仔细构思一个好看的故事和合理的漫画分格。画面要看起来像实体漫画页的照片，而不是数字页面。

日文漫画风格示例

风格精妙度与真实感

Images 2.0 在各种视觉风格上的保真度也有显著提升。它能更好地捕捉照片的典型特征——包括增添真实感的微小瑕疵——以及电影剧照、像素艺术、漫画和其他独特视觉语言，在纹理、光照、构图和精细细节方面保持更高的一致性。

因此，该模型能够更忠实地呈现所要求的风格，而非仅仅是近似。这对于游戏原型制作、分镜设计、营销创意以及在特定媒介或风格中创建素材尤其有用。

照片级真实感

一张照片级真实的旅行抓拍场景：一个人站在海边公路边上的停车观景台，阴天的早晨，用 35mm 胶片拍摄。自然不完美的构图，可见的胶片颗粒，环境光，低饱和色调，衣服和头发被风吹动，电影般的真实感，一张有生活气息的纪实摄影照片的感觉。

旅行纪实摄影风格

一张照片级真实的快照人像：两个朋友夜晚在场馆外面，用卡片机和直射闪光灯拍摄。近距离拍摄，前景细节锐利，阴影急剧衰减，带点原始的自发感，夜生活氛围，以及那种 2000 年代初闪光灯照片的标志性质感。

夜间闪光灯人像

风格化

一页日本青年漫画风格的漫画

日本青年漫画风格

灵活的宽高比

新模型在图像输出格式上也提供了更大的灵活性。支持宽至 3:1、高至 1:3 的宽高比，Images 2.0 可以生成适配各种场景的输出——从宽幅横幅和演示幻灯片到海报、手机屏幕、书签和社交媒体图形。你可以在提示中指定所需的宽高比，或从预设选项中选择，将任意图像重新生成为新的尺寸。

用”日式漫画分解图”的方式呈现篮球扣篮动作，像延时摄影一样。尽量用画面而非文字讲故事。3:1 超宽画幅。浅色背景，不要深色。不要使用日文。

篮球扣篮漫画分解图

现实世界知识

Images 2.0 将更与时俱进的世界认知融入图像创作，知识截止日期为 2025 年 12 月，从而生成更相关、更符合语境的输出。这对于信息图解、教育图表和视觉摘要等内容尤为重要，因为在这些场景中，正确性和清晰度与美观度同等重要。

其智能使其能够端到端地处理任务：综合信息、构建叙事，并以清晰的结构、有意识的留白和强有力的视觉流程进行排版布局。

康托尔对角线证明，信息图

康托尔对角线证明信息图

视觉思维伙伴

在 ChatGPT 中选择 思考模型 时，模型会投入更多时间并在后台更自主地工作，以充分理解和执行任务。它可以利用网络搜索相关信息、将上传的素材转化为清晰的视觉图解，并在生成图像前推理其结构。在这种模式下，Images 2.0 更像是一个 视觉思维伙伴 ，以远少于以往的工作量帮你将项目从粗略构想推进到成品。

借助思考能力，它还可以一次生成多个不同的图像——这在 ChatGPT 的图像生成中尚属首次。这开启了之前操作繁琐的工作流：一系列漫画页面、房屋中每个房间的一组重新设计方案、一组海报创意，或不同宽高比和语言下的社交媒体图形集合。

你不再需要逐张生成图像再自行拼凑项目，而是可以一次请求生成 最多八个 具有角色和物体连贯性的输出，并依次递进构建。

为我的新抹茶店”Kizuki”在布鲁克林高地开业制作一组广告。要有一张阳光感十足的草莓抹茶（冰）照片，街头潮流风格搭配日式简约美学。确保输出多种宽高比，方便我发到 Twitter、IG Stories、IG Feed 和 LinkedIn。

在 Codex 中使用图像生成

Codex（OpenAI 的代码工作平台）中的图像功能将视觉创作整合到同一工作空间中，用于创建、迭代和交付应用程序、幻灯片及其他作品，使 Codex 在设计、营销、产品、销售和学习发展等更广泛的工作场景中更加实用。

例如，你可以生成多个 UI 方向、概念和原型，快速比较选项，然后将最强的创意转化为实际产品或网站体验——无需离开 Codex 应用。你可以使用 ChatGPT 订阅在 Codex 中创建图像，无需创建单独的 API 密钥。

通过 API 中的 gpt-image-2 将图像生成集成到你的产品中

开发者和企业可以通过 gpt-image-2 将这些同样强大的能力整合到他们正在通过 API 开发的产品中——将高质量图像生成和编辑功能添加到已有的工作流中。

凭借更强的文字渲染、多语言生成、改进的指令遵循，以及对更多输出格式和宽高比的支持，API 使得构建面向实际业务场景的图像工作流变得更加容易：本地化广告、信息图表、图解、教育内容、设计工具、创意平台和网站创建产品。

以下是客户在将 gpt-image-2 用于生产工作流后的反馈——涵盖视觉叙事、设计软件到网站创建和创意自动化：

“最让我们惊讶的是 GPT Image 2 添加的细节。它引入了我们未曾考虑过的元素，比如一个’TikTok 爆款’贴纸——一个旨在制造话题的巧妙创意选择。这个模型不仅仅是在渲染图像，它还在解读创意简报、理解目标受众，并在幕后做出创意决策。我们一直在用技术输出衡量 AI。真正的转变是创意推理和设计品味——而这一转变刚刚发生了。”

— Dwayne Koh，Canva 创意策略师

一位时尚名人即将推出新款发光唇膏。目标受众 14-30 岁。为这个受众群体设计一则广告。必须时尚且吸引这个年龄段。看起来要像专业拍摄。模特要酷、潮、有型。设计风格简洁美学。要有高端奢华感。

Canva 使用 GPT Image 2 的广告案例

局限性

ChatGPT Images 2.0 是一次重大进步，但并非完美无缺。它在以下方面仍可能遇到困难：需要完整且连贯的物理世界模型的任务、折纸教程、魔方等谜题，以及在隐藏面、倾斜面或翻转面上需要正确呈现的细节。非常密集或重复的视觉细节（如细沙颗粒）也可能挑战模型极限。标签和图表可能仍需人工检查准确性，尤其是当它们依赖精确的箭头或零件标注时。我们将这些局限性视为未来工作的重要方向。

在 API 中，2K 以上的输出目前处于 Beta 阶段，在某些情况下可能产生不一致的结果。

定价与可用性

ChatGPT Images 2.0 从今天起面向所有 ChatGPT 和 Codex 用户开放。带思考能力的高级输出面向 ChatGPT Plus、Pro 和 Business 用户开放。

gpt-image-2 模型已在 API 中开放；定价因所选的图像质量和分辨率而异。

我们正在构建有用、富有创意且安全的图像生成功能。这意味着采用端到端的安全方法：防止有害输出、实施强有力的防护措施，并随着能力和风险的演变不断增强保护。你可以在此处的系统卡片中阅读更多关于我们的安全方案。

社区评测

各媒体博主们的测评：

GPT Image 2 众测案例合集 — waytoagi.feishu.cn
小歪：GPT Image 2 全量开放！100+ 案例，跟 Nano Banana 2 正面PK（附提示词）— mp.weixin.qq.com
大聪明：GPT-Image-2 全量上线，中文顶到爆，50+ Case 生图实测 — mp.weixin.qq.com
臧师傅：做了十年设计，这次真觉得自己多余了｜GPT-Image-2 上手实测 — waytoagi.feishu.cn
西羊石AI视频团队：我用 GPT Image 2 测了一天，眼见未必为实了 — mp.weixin.qq.com

ChatGPT Images 2.0 正式发布（官方介绍）& 附热门社区评测

更高的精度与控制力

更强的多语言能力

风格精妙度与真实感

照片级真实感

风格化

灵活的宽高比

现实世界知识

视觉思维伙伴

在 Codex 中使用图像生成

通过 API 中的 gpt-image-2 将图像生成集成到你的产品中

局限性

定价与可用性

社区评测

开源 GPT-Image-2.0 玩法

延伸阅读

ChatGPT Images 2.0 正式发布 （官方介绍）& 附热门社区评测

更高的精度与控制力

更强的多语言能力

风格精妙度与真实感

照片级真实感

风格化

灵活的宽高比

现实世界知识

视觉思维伙伴

在 Codex 中使用图像生成

通过 API 中的 gpt-image-2 将图像生成集成到你的产品中

局限性

定价与可用性

社区评测

开源 GPT-Image-2.0 玩法

延伸阅读

ChatGPT Images 2.0 正式发布（官方介绍）& 附热门社区评测