【评测系列3】测试角度:我把ChatGPT Images 2 当测试对象“暴力实测”了一遍,结果有点猛

0 阅读5分钟

今天我没做“主观测评”,而是把 gpt-image-2 当成一个待上线能力,按测试工程流程跑了 17 条用例,文末附有完整用例。

从文字渲染、复杂指令遵循、风格一致性,到边界值测试,全部走 API 自动化并落盘留痕。

结论先说:在中转链路波动下,gpt-image-2 依然交出了可上线的稳定表现。

很多人测图像模型,停留在“这张好看、那张不好看”。但如果你要把它用于内容生产(比如公众号配图、专题封面、连续栏目),真正的问题不是“会不会画”,而是:

  • 是否稳定可复现?
  • 是否按指令办事?
  • 是否能承受真实链路抖动?
  • 失败后能不能快速恢复?

这次我用测试工程师的方式,跑了一轮完整的 API 自动化评估。

GEN_BOUNDARY_LONG_PROMPT_001_r1_1.jpg

1)测试目标:从“好看”升级到“可交付”

  • 文字渲染(OCR 逆测试):中文是否缺笔少画、排版是否合理
  • 复杂指令遵循:多要素是否完整、对象关系是否正确
  • 风格一致性:同角色多次生成是否“漂移”
  • 边界与稳定性:长提示词、高分辨率、慢链路下是否稳定返回

并且不是手工点网页,而是走批量脚本逐条调用 API,确保每次请求有记录、每张图片可追溯。

2)测试方法:真实 API + 自动落盘 + 断点续跑

  • 通过兼容 OpenAI 协议的中转 API 调用 gpt-image-2
  • 串行逐条执行,避免并发干扰
  • 请求慢时不强制超时,保证“只要返回就保存”
  • 同时兼容 b64_json / url 两类返回
  • 支持断点续跑,避免中途失败重头来

一句话:不是“试试看”,而是“可复现测试”。

3)实测结果(核心数据)

说明:多轮执行后,按 case_id + run_index 去重统计,避免重复跑污染结果。

  • 原始记录:38 行
  • 有效样本:17 条
  • 成功:15 条
  • 失败:2 条
  • 成功率:88.24%
  • 耗时范围:12.26s ~ 304.11s
  • 平均耗时:176.50s
  • P50:183.35s
  • P95:258.53s

其中 2 次失败都属于中转网关通道可用性问题(distributor 无可用渠道),不是模型能力退化。

GEN_ADHERENCE_001_r2_1.jpg

GEN_ANTI_HALLUCINATION_001_r1_1.jpg

GEN_ADHERENCE_001_r2_1.jpg

4)最有价值的观察(给到实战)

GEN_BOUNDARY_LONG_PROMPT_001_r1_1.jpg 观察 A:模型能力没问题,链路策略更关键。  早期失败主要来自中转通道波动(如 503、路由不可用),不是模型画不出来。一旦改为“逐条等待 + 自动续跑 + 返回即落盘”,成功率明显提升。

观察 B:复杂指令遵循表现稳定。  多要素场景(主体、颜色、背景关系)基本能按指令输出,适合内容生产里的“半模板化出图”。

观察 C:风格一致性可用。  同角色多次生成的连续性不错,适合做公众号系列栏目(封面风格统一、人物形象延续)。

观察 D:高分辨率可交付。  2K/4K 场景可跑通,满足“头图+正文图”一体化生产需求。

5)如果你也想在业务里用,建议这样落地

  • 先做测试分层:能力测试、稳定性测试、链路测试分开看
  • 请求一定留痕:保存 request id、状态码、耗时、样图路径
  • 别迷信一次成功:同用例多次重复,才有统计意义
  • 把失败当常态设计:自动重试、断点续跑、结果去重要提前做

6)结论:gpt-image-2 已经能从“玩具”进入“生产工具”

如果你的目标是“偶尔玩图”,任何模型都够。但如果你的目标是“持续生产内容、可复现交付”,那就必须走测试工程路线。

这次实测给我的结论很明确:gpt-image-2 在正确执行策略下,已经具备稳定投入内容生产的能力。

你更关心哪一类测试结果?

  • A. 中文文字渲染

  • B. 风格一致性

  • C. 高分辨率稳定性

  • D. 敏感内容与合规边界

明天我会把视觉理解和破坏性测试完成,大家可以点赞、关注、收藏;

附用例:

GEN_STYLE_CONSISTENCY_001_r1_1.jpg GEN_STYLE_CONSISTENCY_001_r1_1.jpg

GEN_ANTI_HALLUCINATION_001_r2_1.jpg GEN_STYLE_CONSISTENCY_001_r2_1.jpg

GEN_STYLE_CONSISTENCY_001_r3_1.jpg

GEN_STYLE_CONSISTENCY_001_r4_1.jpg

[  {    "id""GEN_OCR_CN_001",    "category""generation_ocr",    "prompt""生成一张印有“北京市朝阳区”和“测试工程师”字样的工牌,背景为蓝色渐变,文字清晰可读。",    "size""1536x1024",    "format""jpeg",    "quality""high",    "n": 1,    "repeats": 3  },  {    "id""GEN_ADHERENCE_001",    "category""generation_adherence",    "prompt""画一个坐在沙发上的猫,猫戴着眼镜,沙发是绿色的,背景有一扇窗,窗外有树。画面写实风格。",    "size""1536x1024",    "format""jpeg",    "quality""auto",    "n": 1,    "repeats": 3  },  {    "id""GEN_STYLE_CONSISTENCY_001",    "category""generation_style_consistency",    "prompt""生成同一个赛博朋克侦探角色头像,保持服装和配饰一致,仅改变表情为冷静、愤怒、微笑、疑惑。每次只生成 1 张。",    "size""1024x1024",    "format""jpeg",    "quality""auto",    "n": 1,    "repeats": 4  },  {    "id""GEN_ANTI_HALLUCINATION_001",    "category""generation_negative",    "prompt""生成一张没有猫的猫窝图片,画面中只出现猫窝与室内地板,不要出现任何猫。",    "size""1024x1024",    "format""jpeg",    "quality""auto",    "n": 1,    "repeats": 3  },  {    "id""GEN_BOUNDARY_LONG_PROMPT_001",    "category""generation_boundary",    "prompt""请生成一张用于微信公众号技术文章头图的高质量插图,主题是“测试工程师用自动化方法评估多模态模型的生成能力与视觉理解能力”。画面主体为一位坐在电脑前的测试工程师,屏幕上显示测试面板、通过率曲线、延迟柱状图、失败样本截图。背景是现代办公室,带有玻璃窗和城市夜景。色彩风格为蓝紫赛博风,强调专业、可信、效率。画面中不要出现真实品牌 logo,不要出现水印,不要出现乱码文字。构图要求横版 16:9,主体居中偏左,右侧留白用于后续叠加文章标题。细节要求:光影层次明显,人物手部自然,键盘与屏幕透视合理,整体清晰锐利但不过度锐化。",    "size""2048x1152",    "format""jpeg",    "quality""high",    "n": 1,    "repeats": 2  },  {    "id""GEN_BOUNDARY_RATIO_001",    "category""generation_boundary",    "prompt""生成一张 3:1 横幅风格的抽象科技背景图,用于公众号文章分割图,简洁、无文字。",    "size""3840x2160",    "format""jpeg",    "quality""medium",    "n": 1,    "repeats": 2  }]