图像是一种语言,而非装饰。一张好的图像和一句好的文字一样——它选择、编排并揭示。它能解释原理、营造氛围、验证想法,或阐述观点。
一年前,我们发布了 ChatGPT Images,证明了 AI 创作的图像可以兼具美感与实用性。ChatGPT Images 2.0 是下一步:一个业界领先的模型,能够处理复杂的视觉任务并生成精确、可直接使用的图像。
该模型在详细指令遵循、物体精确放置与关联、密集文字渲染方面实现了质的飞跃(step change),并支持多种宽高比(aspect ratio)的图像生成。其构图能力和视觉品味意味着生成结果不再有明显的 AI 痕迹,而更像是经过刻意设计的作品。它在多语言场景下同样准确,并利用扩展的视觉和世界知识来补充细节,让你用更少的提示就能得到更智能的图像。
为了在处理最复杂的任务时扩展模型能力,Images 2.0 是我们首个具备思考能力(thinking)的图像模型。在 ChatGPT 中选择思考模型或 Pro 模型时,Images 2.0 可以搜索网络获取实时信息、根据单个提示创建多个不同图像,并自行检查输出结果。借助思考能力,模型可以在从构想到成图的整个过程中承担更多工作,尤其是在准确性、最新信息、一致性和视觉连贯性最为重要的场景下。
结合 OpenAI 推理模型的智能和对视觉世界的广泛理解,这个模型将图像生成从单纯的渲染提升为策略性设计,从工具升级为视觉系统,帮助人们将想法转化为可以理解、分享、教学和构建的成果。该模型从今天起面向所有 ChatGPT、Codex 和 API 用户开放。
更高的精度与控制力
Images 2.0 为图像创作带来了前所未有的精确度和保真度。它不仅能构思更复杂的图像,还能有效地将构想变为现实——能够遵循指令、保留要求的细节,并准确渲染那些经常让图像模型出错的精细元素:小字号文本、图标、UI 元素、密集构图和微妙的风格约束,在 API 中支持高达 2K 分辨率。你得到的不再是模糊接近你意图的东西,而是真正可用的成果。
ChatGPT 在 macOS 浏览器中的截图。用户输入”draw me a dog”,ChatGPT 用 ASCII 字符画了一只狗。前景窗口是 ChatGPT,但桌面很乱,背景里有很多杂乱的窗口(比如终端)。
ChatGPT 生成的 ASCII 狗截图
更强的多语言能力
此前,我们的图像生成模型在英语和其他拉丁字母语言中表现更一致,但在其他语言中精度下降,尤其是文字复杂或密集时。
Images 2.0 突破了这一瓶颈,具备更强的多语言理解能力,在非拉丁文字渲染方面取得了显著提升,特别是在日语、韩语、中文、印地语和孟加拉语方面。它能生成包含非英文文字的图像,不仅渲染正确,而且语言表达连贯流畅。
这不仅仅是翻译一两个标签,而是生成语言本身作为设计一部分的视觉一致性输出——从海报、图解到图表和漫画。这使得该模型在全球范围内更加实用,帮助人们用自己实际使用的语言创建视觉内容。
制作一页上色的日本少年冒险漫画样稿。画面要生动地描绘主角发现了一支魔法羽毛笔。这支笔叫做”Quill of GPT Image”。要有戏剧张力。这支魔法羽毛笔内封印着强大的力量。
补充说明:宽高比:竖版 1440x2560。笔上要有 OpenAI 的 logo。整页漫画使用日语。先仔细构思一个好看的故事和合理的漫画分格。画面要看起来像实体漫画页的照片,而不是数字页面。
日文漫画风格示例
风格精妙度与真实感
Images 2.0 在各种视觉风格上的保真度也有显著提升。它能更好地捕捉照片的典型特征——包括增添真实感的微小瑕疵——以及电影剧照、像素艺术、漫画和其他独特视觉语言,在纹理、光照、构图和精细细节方面保持更高的一致性。
因此,该模型能够更忠实地呈现所要求的风格,而非仅仅是近似。这对于游戏原型制作、分镜设计、营销创意以及在特定媒介或风格中创建素材尤其有用。
照片级真实感
一张照片级真实的旅行抓拍场景:一个人站在海边公路边上的停车观景台,阴天的早晨,用 35mm 胶片拍摄。自然不完美的构图,可见的胶片颗粒,环境光,低饱和色调,衣服和头发被风吹动,电影般的真实感,一张有生活气息的纪实摄影照片的感觉。
旅行纪实摄影风格
一张照片级真实的快照人像:两个朋友夜晚在场馆外面,用卡片机和直射闪光灯拍摄。近距离拍摄,前景细节锐利,阴影急剧衰减,带点原始的自发感,夜生活氛围,以及那种 2000 年代初闪光灯照片的标志性质感。
夜间闪光灯人像
风格化
一页日本青年漫画风格的漫画
日本青年漫画风格
灵活的宽高比
新模型在图像输出格式上也提供了更大的灵活性。支持宽至 3:1、高至 1:3 的宽高比,Images 2.0 可以生成适配各种场景的输出——从宽幅横幅和演示幻灯片到海报、手机屏幕、书签和社交媒体图形。你可以在提示中指定所需的宽高比,或从预设选项中选择,将任意图像重新生成为新的尺寸。
用”日式漫画分解图”的方式呈现篮球扣篮动作,像延时摄影一样。尽量用画面而非文字讲故事。3:1 超宽画幅。浅色背景,不要深色。不要使用日文。
篮球扣篮漫画分解图
现实世界知识
Images 2.0 将更与时俱进的世界认知融入图像创作,知识截止日期为 2025 年 12 月,从而生成更相关、更符合语境的输出。这对于信息图解、教育图表和视觉摘要等内容尤为重要,因为在这些场景中,正确性和清晰度与美观度同等重要。
其智能使其能够端到端地处理任务:综合信息、构建叙事,并以清晰的结构、有意识的留白和强有力的视觉流程进行排版布局。
康托尔对角线证明,信息图
康托尔对角线证明信息图
视觉思维伙伴
在 ChatGPT 中选择 思考模型 时,模型会投入更多时间并在后台更自主地工作,以充分理解和执行任务。它可以利用网络搜索相关信息、将上传的素材转化为清晰的视觉图解,并在生成图像前推理其结构。在这种模式下,Images 2.0 更像是一个 视觉思维伙伴 ,以远少于以往的工作量帮你将项目从粗略构想推进到成品。
借助思考能力,它还可以一次生成多个不同的图像——这在 ChatGPT 的图像生成中尚属首次。这开启了之前操作繁琐的工作流:一系列漫画页面、房屋中每个房间的一组重新设计方案、一组海报创意,或不同宽高比和语言下的社交媒体图形集合。
你不再需要逐张生成图像再自行拼凑项目,而是可以一次请求生成 最多八个 具有角色和物体连贯性的输出,并依次递进构建。
为我的新抹茶店”Kizuki”在布鲁克林高地开业制作一组广告。要有一张阳光感十足的草莓抹茶(冰)照片,街头潮流风格搭配日式简约美学。确保输出多种宽高比,方便我发到 Twitter、IG Stories、IG Feed 和 LinkedIn。
在 Codex 中使用图像生成
Codex(OpenAI 的代码工作平台)中的图像功能将视觉创作整合到同一工作空间中,用于创建、迭代和交付应用程序、幻灯片及其他作品,使 Codex 在设计、营销、产品、销售和学习发展等更广泛的工作场景中更加实用。
例如,你可以生成多个 UI 方向、概念和原型,快速比较选项,然后将最强的创意转化为实际产品或网站体验——无需离开 Codex 应用。你可以使用 ChatGPT 订阅在 Codex 中创建图像,无需创建单独的 API 密钥。
通过 API 中的 gpt-image-2 将图像生成集成到你的产品中
开发者和企业可以通过 gpt-image-2 将这些同样强大的能力整合到他们正在通过 API 开发的产品中——将高质量图像生成和编辑功能添加到已有的工作流中。
凭借更强的文字渲染、多语言生成、改进的指令遵循,以及对更多输出格式和宽高比的支持,API 使得构建面向实际业务场景的图像工作流变得更加容易:本地化广告、信息图表、图解、教育内容、设计工具、创意平台和网站创建产品。
以下是客户在将 gpt-image-2 用于生产工作流后的反馈——涵盖视觉叙事、设计软件到网站创建和创意自动化:
“最让我们惊讶的是 GPT Image 2 添加的细节。它引入了我们未曾考虑过的元素,比如一个’TikTok 爆款’贴纸——一个旨在制造话题的巧妙创意选择。这个模型不仅仅是在渲染图像,它还在解读创意简报、理解目标受众,并在幕后做出创意决策。我们一直在用技术输出衡量 AI。真正的转变是创意推理和设计品味——而这一转变刚刚发生了。”
— Dwayne Koh,Canva 创意策略师
一位时尚名人即将推出新款发光唇膏。目标受众 14-30 岁。为这个受众群体设计一则广告。必须时尚且吸引这个年龄段。看起来要像专业拍摄。模特要酷、潮、有型。设计风格简洁美学。要有高端奢华感。
Canva 使用 GPT Image 2 的广告案例
局限性
ChatGPT Images 2.0 是一次重大进步,但并非完美无缺。它在以下方面仍可能遇到困难:需要完整且连贯的物理世界模型的任务、折纸教程、魔方等谜题,以及在隐藏面、倾斜面或翻转面上需要正确呈现的细节。非常密集或重复的视觉细节(如细沙颗粒)也可能挑战模型极限。标签和图表可能仍需人工检查准确性,尤其是当它们依赖精确的箭头或零件标注时。我们将这些局限性视为未来工作的重要方向。
在 API 中,2K 以上的输出目前处于 Beta 阶段,在某些情况下可能产生不一致的结果。
定价与可用性
ChatGPT Images 2.0 从今天起面向所有 ChatGPT 和 Codex 用户开放。带思考能力的高级输出面向 ChatGPT Plus、Pro 和 Business 用户开放。
gpt-image-2 模型已在 API 中开放; 定价 因所选的图像质量和分辨率而异。
我们正在构建有用、富有创意且安全的图像生成功能。这意味着采用端到端的安全方法:防止有害输出、实施强有力的防护措施,并随着能力和风险的演变不断增强保护。你可以在 此处 的系统卡片中阅读更多关于我们的安全方案。
社区评测
各媒体博主们的测评:
- GPT Image 2 众测案例合集 — waytoagi.feishu.cn
- 小歪:GPT Image 2 全量开放!100+ 案例,跟 Nano Banana 2 正面PK(附提示词)— mp.weixin.qq.com
- 大聪明:GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测 — mp.weixin.qq.com
- 臧师傅:做了十年设计,这次真觉得自己多余了|GPT-Image-2 上手实测 — waytoagi.feishu.cn
- 西羊石AI视频团队:我用 GPT Image 2 测了一天,眼见未必为实了 — mp.weixin.qq.com
开源 GPT-Image-2.0 玩法
延伸阅读
社区评测
-
GPT Image 2 众测案例合集: waytoagi.feishu.cn/wiki/JZFdwt…
-
小歪:GPT Image 2 全量开放!100+ 案例,跟 Nano Banana 2 正面PK(附提示词): mp.weixin.qq.com/s/HVz13w3-6…
-
大聪明:GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测: mp.weixin.qq.com/s/xHdO3eDSy…
-
臧师傅:做了十年设计,这次真觉得自己多余了|GPT-Image-2 上手实测: waytoagi.feishu.cn/wiki/XMkNwX…
-
西羊石AI视频团队:我用 GPT Image 2 测了一天,眼见未必为实了: mp.weixin.qq.com/s/XlvehiK5D…
开源 GPT-Image-2.0 玩法
- ZeroLu/awesome-gpt-image: github.com/ZeroLu/awes…
- YouMind-OpenLab/awesome-gpt-image-2: github.com/YouMind-Ope…
- EvoLinkAI/awesome-gpt-image-2-prompts: github.com/EvoLinkAI/a…