OpenAI 正式发布了 GPT Image 2,附完整使用指南来了

0 阅读13分钟

OpenAI 正式发布了 GPT Image 2。

官方定义是"state-of-the-art image generation model"。

我花了一晚上通读官方文档和 API 规范,把核心信息整理成这篇指南。

如果你想在第一时间把 GPT Image 2 集成到你的工作流里,这篇文章就是为你写的,耽误你一些时间,耐心读完干货。

全文包含核心能力速览、两种 API 调用方式、3 个实战场景代码、成本估算和避坑指南。

所有数据来自 OpenAI 官方文档(2026-04-21 最新版)。


GPT Image 2 强在哪

GPT Image 2 是目前文本渲染能力最强的图像生成模型,没有之一。

这不是"挤牙膏式"的升级。

用 6 个具体能力来说明:

文本渲染

近乎完美的文字生成,支持复杂排版和长文本。

海报、信息图表、杂志跨页都能准确渲染文字。

多语言支持

日语、阿拉伯语、韩语、梵文、西里尔文、孟加拉语、希腊语、中文及南亚语言。

官方演示里的多语言海报,文字都能准确呈现。尺寸灵活性

支持横向、方形、纵向。

最大 3840px(4K),长宽比≤3:1。

分页生成

支持多页连续生成。

漫画书、杂志跨页可以一次性生成。

图像输入

高保真图像编辑和参考能力。

始终 high fidelity,不可调节。

思维模式

支持搜索 + 推理。

可生成基于实时信息的内容。


和 DALL-E 3 的差异

如果你用过 DALL-E 3,这几个差异点值得注意:

文本渲染

DALL-E 3 生成文字经常拼错。

GPT Image 2 基本解决了这个问题。

尺寸控制

DALL-E 3 只有固定的 1024x1024/1792x1024/1024x1792。

GPT Image 2 支持任意尺寸(在约束范围内)。

这意味着你可以直接生成适合公众号封面的 16:9 图,或者适合小红书的 3:4 竖版图。

多轮编辑

GPT Image 2 通过 Responses API 支持真正的多轮对话编辑。

你可以先生成一张图,然后说"把背景换成深色"或"让文字更大一些"。

模型会基于上一轮结果进行编辑,而不是重新生成。

价格

GPT Image 2 比 DALL-E 3 便宜约 40%(同等质量下)。

后面会详细算这笔账。


两种 API 调用方式

GPT Image 2 支持两种 API 调用方式。

选对 API 能让你的工作流效率翻倍。

Image API:单次生成

适用场景:一次性生成或编辑单张图片,不需要多轮对话。

比如你在做一个电商工具,需要批量生成 100 张产品图。

每张图都是独立的,不需要参考前一张的结果。

这种情况下用 Image API 最合适。

from openai import OpenAI
import base64

client = OpenAI()

response = client.images.generate(
    model="gpt-image-2",
    prompt="Generate a product photo of wireless earbuds",
    size="1024x1024",
    quality="medium",
    n=1
)

image_b64 = response.data[0].b64_json

Responses API:多轮对话

适用场景:需要多轮对话、逐步 refining 提示词。

比如你在做一个设计工具,用户希望先看到草稿。

然后逐步调整风格、颜色、布局。

这种情况下用 Responses API 更合适。

from openai import OpenAI
import base64

client = OpenAI()

## 第一轮:生成初始图像
response = client.responses.create(
    model="gpt-5.4",
    input="Generate an image of a cat hugging an otter",
    tools=[{"type": "image_generation"}]
)

## 第二轮:基于上一轮编辑
response_followup = client.responses.create(
    model="gpt-5.4",
    previous_response_id=response.id,
    input="Make it look more realistic",
    tools=[{"type": "image_generation"}]
)

我用下来的感受是:批量生成用 Image API,交互式应用选 Responses API。


尺寸、质量和成本

这是最容易被忽视、但直接影响成本的部分。

尺寸约束

GPT Image 2 支持任意尺寸,但必须满足以下约束:

  • 最大边长 ≤ 3840px
  • 两边都必须是 16 的倍数
  • 长边:短边 ≤ 3:1
  • 总像素数:655,360 ~ 8,294,400

常用尺寸参考:

1024x1024(方形,最快)

1536x1024(横版)

1024x1536(竖版)

2048x2048(2K 方形)

2048x1152(2K 横版)

超过 2560x1440(约 368 万像素)的输出被标记为"experimental",生产环境建议谨慎使用。

质量等级

low:快速草稿、缩略图、批量测试(最快)

medium:一般用途(中等)

high:最终成品、印刷级(最慢)

auto:默认,模型根据提示词自动选择

一个实用的省钱技巧:在迭代提示词阶段用 low quality,确定最终版本后再用 high quality 生成。

这样可以把测试成本降到 1/5 左右。

成本估算

GPT Image 2 的定价按 token 计算:

输入:$8 / 1M tokens

输出:$30 / 1M tokens

输出 token 估算(1024x1024):

low quality ≈ 196 tokens

medium quality ≈ 784 tokens

high quality ≈ 3136 tokens

单张成本估算:

low:    196 tokens × $30/1M = $0.00588(约 4 分钱人民币)
medium: 784 tokens × $30/1M = $0.02352(约 17 分钱)
high:  3136 tokens × $30/1M = $0.09408(约 68 分钱)

对比 DALL-E 3:

DALL-E 3 标准质量:$0.040/张(1024x1024)

GPT Image 2 medium:$0.024/张(1024x1024)

GPT Image 2 在同等质量下比 DALL-E 3 便宜约 40%。

下面这个脚本可以帮你快速估算成本:

def estimate_cost(width, height, quality):
    """估算 GPT Image 2 生成成本(美元)"""
    pixels = width * height
    
    multipliers = {
        "low": 1 / 5000,
        "medium": 1 / 1250,
        "high": 1 / 312.5
    }
    
    tokens = pixels * multipliers.get(quality, 1 / 1250)
    cost = (tokens / 1_000_000) * 30
    
    return cost

## 示例:1024x1024 medium
print(f"${estimate_cost(1024, 1024, 'medium'):.5f}")

三个实战场景

来看三个真实场景的完整代码。

场景 1:电商产品图批量生成

假设你有一个电商工具,需要为 100 个商品生成产品图。

每个商品有名称和风格描述。

你需要批量生成并保存图片。

from openai import OpenAI
import base64

client = OpenAI()

products = [
    {"name": "无线蓝牙耳机", "style": "minimalist white background"},
    {"name": "机械键盘", "style": "dark moody lighting, RGB"},
    {"name": "咖啡杯", "style": "warm morning light, cozy"},
]

def generate_product_image(name, style):
    prompt = f"Generate a product photo of {name}, {style}"
    
    response = client.images.generate(
        model="gpt-image-2",
        prompt=prompt,
        size="1024x1024",
        quality="medium",
        n=1
    )
    
    safe_name = name.replace(" ", "_")
    image_data = response.data[0].b64_json
    
    with open(f"products/{safe_name}.png", "wb") as f:
        f.write(base64.b64decode(image_data))

## 批量生成
for product in products:
    generate_product_image(product["name"], product["style"])

真正让我觉得这个工作流有用的是:你可以把风格描述模板化。

比如"minimalist white background"可以复用到所有产品。

只需要换产品名称。

这样能保证整个店铺的图片风格一致。

场景 2:多语言海报生成

GPT Image 2 的多语言文本渲染能力是代际差异。

下面这个示例展示了如何用不同语言生成海报:

from openai import OpenAI

client = OpenAI()

prompts = [
    "生成一张日式风格海报,标题用日文写着'桜祭り 2026'",
    "Generate a French café poster with text 'Café de Paris'",
    "创建一张中文书法风格海报,写着'知行合一'",
    "한국 전통 한옥과 '서울 여행' 텍스트가 있는 포스터",
]

def generate_poster(prompt, output_name):
    response = client.images.generate(
        model="gpt-image-2",
        prompt=prompt,
        size="1024x1536",  ## 竖版海报
        quality="high",
        n=1
    )
    
    with open(f"posters/{output_name}.png", "wb") as f:
        f.write(base64.b64decode(response.data[0].b64_json))

## 生成多语言海报
for i, prompt in enumerate(prompts):
    generate_poster(prompt, f"poster_{i}")

建议先用 low quality 测试文字效果,确认无误后再用 high quality 生成最终版本。

场景 3:基于参考图的产品设计

这个场景更复杂一些。

你有 3 张参考图(可能是竞品图片、灵感图、材质样本)。

需要生成一个融合所有元素的新设计。

from openai import OpenAI
import base64

client = OpenAI()

def encode_image(file_path):
    with open(file_path, "rb") as f:
        return base64.b64encode(f.read()).decode("utf-8")

def create_file(file_path):
    with open(file_path, "rb") as f:
        result = client.files.create(file=f, purpose="vision")
        return result.id

prompt = """
Generate a new product design that combines elements 
from all reference images.
The final product should be a modern minimalist desk lamp.
"""

## 准备参考图
image1_b64 = encode_image("reference_lamp_1.jpg")
image2_b64 = encode_image("reference_lamp_2.jpg")
file_id_3 = create_file("reference_lamp_3.jpg")

response = client.responses.create(
    model="gpt-5.4",
    input=[{
        "role": "user",
        "content": [
            {"type": "input_text", "text": prompt},
            {"type": "input_image", "image_url": f"data:image/jpeg;base64,{image1_b64}"},
            {"type": "input_image", "image_url": f"data:image/jpeg;base64,{image2_b64}"},
            {"type": "input_image", "file_id": file_id_3},
        ]
    }],
    tools=[{"type": "image_generation", "quality": "high"}]
)

## 提取结果
image_data = [
    output.result
    for output in response.output
    if output.type == "image_generation_call"
]

if image_data:
    with open("final_lamp_design.png", "wb") as f:
        f.write(base64.b64decode(image_data[0]))

这个工作流的核心价值是:你可以把"灵感收集→设计生成"变成一个连续的流程。

比如先收集 10 张参考图到文件夹。

然后批量生成 10 个设计方案。

再人工筛选。


已验证的限制

GPT Image 2 很强,但不是万能的。

以下是根据官方文档总结的限制:

不支持透明背景

GPT Image 2 目前不支持 transparent 背景。

如果你需要透明背景的产品图,只能用 PNG 格式生成后,用其他工具(如 remove.bg 或 Photoshop)抠图。

复杂提示词可能耗时 2 分钟

官方文档明确说明:

Complex prompts may take up to 2 minutes to process.

我的建议:

  • 在生产环境设置合理的 timeout(建议 180 秒)
  • 对于批量任务,使用异步处理或队列
  • 简单提示词通常 10-30 秒完成

文本渲染仍有局限

虽然比 DALL-E 3 强很多,但以下情况仍可能翻车:

超长文本(超过 50 个字符)

特殊字体风格(手写体、哥特体等)

文本和复杂背景的融合

避坑建议:生成带文字的海报时,先用 low quality 测试文本渲染效果。

确认无误后再用 high quality 生成最终版本。

需要 API Organization Verification

首次使用 GPT Image 系列模型前,需要完成 API Organization Verification。

操作路径:

  1. 登录 platform.openai.com/settings/or…
  2. 完成组织验证(通常需要企业信息)
  3. 等待审核通过(通常 1-3 个工作日)

一致性控制有限

官方承认:

While capable of producing consistent imagery, the model may occasionally struggle to maintain visual consistency for recurring characters or brand elements across multiple generations.

workaround:

  • 使用相同的参考图 + 固定 seed(如果支持)
  • 对于品牌元素,考虑生成后手动合成
  • 重要项目预留人工修正时间

使用GPT Image 2 的几种方式

说了再多,不如你实际上手体验,这边分享几种使用Image 2的方式,各位自行去体验哈

千言万语其实不如你自己实际体验一下,快来领会一下科技的魅力。

1、官网使用

目前,可以确定的渠道是付费的 OpenAI 的 Plus、Pro 和 Team 用户可以使用Image 2,你在官网要生图的时候,自动会用最新模型给你生图。官网直接升级20刀/月的 Plus套餐就能使用。

官网使用地址:chatgpt.com/

2、爱发电

国内大佬主要做解决OpenAI和克劳德使用的公益服务网站,目前已同步官网Image 2。使用的库系统镜像的时候自动会调用Image 2生成图像。

但是最近因为项目经常被攻击,目前采用订阅方式使用,感兴趣的可以自己去了解。本来是公益的,现在限制了一下防止攻击,需要订阅了。

公益网址我这边没去赞助,没拿到喔,想了解自己去看看吧!

使用地址:fcai.me/afdian

3、模型竞技场

进入竞技场后点击DIRCTChat,然后选择5系列模型就好。

需要注意的是,模型竞技场有些时候会因为没有次数额度下架5-nano或者5-mini模型使用。你可以去试试看,如果没有的该模型选项的话,晚会再进去试试。

注:首次进入稍微卡,需要等待一会。(这是海外模型竞技场,需要你自行解决网络问题)

使用地址:arena.ai/

4、国内镜像系统

支持单账号支持多设备登录,一个复刻Open-AI的网站,模型和页面都是和官网一致。注册即可使用基础的5系列模型。目前已同步官网Image 2。

1:1复原,原汁原味使用官网,该项目让你足不出户即可使用GPT服务,同步Open-AI官网更新,基本功能和官网一致,注册即可使用。

使用地址:ai.github.cn.com

使用教程:www.yuque.com/cyw3u3/yyuo…

5、工作区-Salck

大佬通过OpenAI官网的API在Slack配置的一个应用。 加入他的Slack工作区就能直接使用OpenAI系统模型、Gemini模型。而且工作区里面还有Claude4.6系列模型可以使用。目前Slack可以在电脑、手机、网页使用,可以说是很方便了。

注意,加入工作区一般需要使用国际邮箱,用微软的outlook邮箱就好了。首次加入需特殊环境(需自行准备) 。加入完进入工作区在频道@GPT应用即可。

工作区加入链接:h5ma.cn/jxn

6、chatshare

国内最大的镜像站之一,主要提供OpenAI和克劳德的镜像服务。运行时间长,可靠稳定。目前已接入最新生图系列模型,在自选专区使用即可。

注册后需使用激活码订阅,订阅完成即可使用。具体不多说,需要的可自行了解。

使用地址:chatshare.biz

激活码获取:chatshare.ren

7、Poe

一个海外模型聚合平台,提供各种各样的模型体验。市面上热门的当然目前5系列模型也有了。生图模型当然现在也接入了。

但是限制次数,免费用户每天有3000积分,每日重置一次,尝个鲜还是不错的。

当然次数用量大,可以换号薅~

使用地址:poe.com/

7、GAC-GPT

一个专注于 AI 技术与实际应用的全新平台,站点前身为chatshare.xyz,后面GAC团队寻求发展,做的比较高端一点站点。GAC更好更强的AI镜像号池,每个节点后面都有无数的官方账号,所有对话实时同步自官方。

使用地址:www.gpt521.com

CDK获取:403 Forbidden

8、Sider插件

一款浏览器插件,你可以在Edge浏览器和Chrome浏览器中安装它。

可以帮助我们进行更正语法、改写内容、扩充内容和生成广告脚本。它支持在任何网站上使用,并提供摘要文章、解释代码等功能。

使用地址:sider.ai/invited?c=c…

GPT Image 2 的发布,对我来说意味着一件事:

AI 图像生成终于到了可以真正集成到工作流里的阶段。

文本渲染不再是短板。

多语言支持成为标配。

API 集成更加灵活。

对于开发者来说,这意味着可以用更低的成本生成更高质量的图像。

可以把图像生成真正集成到产品工作流中。

可以服务全球化用户(多语言文本渲染)。

但也要记住:工具再强,也只是工具。

真正决定输出质量的,还是你的 prompt 工程能力和对业务场景的理解。

如果 GPT Image 2 的文本渲染已经足够好,那么传统的"先生成图、后 PS 加字"的工作流,是不是可以彻底淘汰了?

这只是我的做法,你可能有更好的。

如果可以,希望小伙伴们点赞和收藏,这是我的更新动力!

如果可以,希望小伙伴们点赞和收藏,这是我的更新动力!