▍ 前言:什么是 GPT Image 2?为什么全网都在找 duct-type-2?
最近,国内外技术圈和推特时间线被 GPT Image 2 这个词条彻底刷屏了。起因是不少开发者在 LMSYS Chatbot Arena(竞技场)的匿名对战中,发现了一个代号为 duct-type-2 的神秘图像生成模型。
尽管目前 OpenAI 官方文档的稳定版依然是上一代(Image 1.5),但从近期的灰度测试和社区泄露表现来看,这个被公认为 GPT Image 2 的新模型带来了质的飞跃。它不再只是单纯的“会画图”,而是真正开始“懂设计”了。
过去的 AI 生图,稍微加点字就崩,布局一复杂就乱。为了验证 GPT Image 2 的真实实力,我拿着之前压测其他顶尖模型的极端提示词,对这个疑似 OpenAI 的新一代模型进行了全方位“拷问”。结果表明:面对 GPT Image 2,我们写 Prompt(提示词)的思路,是时候**从“描述画面”升级为“下发需求文档(Task)”**了。
下面是针对 GPT Image 2 四大核心维度的硬核测评。
▍ 01 文字渲染与极限排版:GPT Image 2 从“画废图”到“出成品”
判断一个 AI 生图模型强不强,第一步不要测大场面,而是测最难的:中英混排、小字副标题和多模块布局。GPT Image 2 在处理复杂的中文信息图时,展现出了惊人的排版逻辑——它懂得留白,甚至会根据产品属性(如护肤品或茶饮)自动匹配高级的细衬线字体。
- 测试维度: 商业海报图文层级、数字/价格准确度、版式美感。
- 出图提示词 (Prompt):
“请设计一张 3:4 竖版茶饮海报,品牌名为‘1点点’。整体风格清新自然、年轻活力、极简亲和。画面主体是一杯高颜值的茉莉奶绿(奶茶色泽清爽,质感丝滑,搭配1点点经典透明杯身)。海报中必须准确呈现以下文字:‘1点点’、‘茉莉奶绿’、‘人气推荐 中杯 16 元 大杯 19 元’。要求海报具备明显促销信息层级,重点测试小字、数字与中文字体美感,保留品牌辨识度,不要做成廉价电商海报。”
测评结果: 字迹清晰零错误,价格层级分明,可以直接作为商业初稿使用。
▍ 02 真实世界物理与光影:彻底摆脱 AI 的“塑料滤镜感”
AI 生成人像早就不是难事,难的是生成不带“AI 塑料味”的普通人。GPT Image 2 在处理复杂混合光源(如商场冷暖光交替)以及人物的自然微瑕(如出油感、乱发、不看镜头的抓拍神态)上,达到了极高的纪实摄影级水准。
- 测试维度: 多光源混合、材质反射(玻璃/地砖)、人物生活化神态。
- 出图提示词 (Prompt):
“生成一张极其真实的商场纪实摄影照片,周末傍晚的大型购物中心扶梯口。一位 30 岁左右的亚洲男性刚从上行扶梯走下来,左手拎着购物袋,右手正在低头回消息。头发略乱,脸上有一点出油感。商场灯光是复杂的混合光,顶部暖白灯与橱窗冷白灯同时存在,地面是高反光瓷砖。要求像摄影师抓拍的真实瞬间,拒绝时尚摆拍感。”
测评结果: 完美还原了复杂的现场光影,人物皮肤质感极度逼真,打破了以往 AI 强加的“唯美滤镜”。
▍ 03 UI 界面与交互重构:产品经理的“高保真”外挂
这是 GPT Image 2 最让人惊艳、也是最拉开差距的一点:它理解 UI 交互逻辑。它不仅能精准还原状态栏、搜索框和底部 Tab,连“猜你喜欢”的双列瀑布流、商品现价与原价的排版都能做到极度拟真,甚至在音乐播放器界面中还会自己生成对应的专辑封面。
- 测试维度: App 组件结构、图文混排合理性、商业设计感。
- 出图提示词 (Prompt):
“生成一张高保真移动端电商 App 首页界面截图。顶部为包含时间 9:41 的状态栏,下方是搜索框。主体包含 10 宫格功能区(如百亿补贴、秒杀)。中部为限时秒杀模块,带倒计时。下方为‘猜你喜欢’双列商品瀑布流,包含商品图、标题、价格。底部固定 Tab Bar,‘首页’为高亮状态。要求所有中文清晰可读,整体必须让人一眼觉得是真实产品界面。”
测评结果: 像素级对齐的组件库排版,对于设计师和产品经理而言,这是一个可怕的效率工具。
▍ 04 角色一致性与二次编辑:告别“一次性”素材
对于创作者来说,保持角色或风格的一致性一直是 AI 抽卡的痛点。而在 GPT Image 2 中,无论是让同一个二次元角色展现 16 种不同的情绪,还是让自家的宠物穿上各种制服并保持花色一致,新模型的表现都极其稳定。
- 测试维度: 角色特征保留(脸型/发型/服装)、局部重绘编辑能力。
- 出图提示词 (Prompt):
“生成一个有着银色长发和蓝色眼瞳的二次元动漫少女的十六宫格表情图。她的脸型、发型、服装必须在所有格子里保持高度一致。十六个表情需要包含:开心、难过、愤怒、惊讶、流泪、爱心等。要求格子划分清晰。”
测评结果: 彻底告别“盲盒抽卡”,同一个 Prompt 下的人物特征锁定能力史诗级加强。
▍ 总结:把 GPT Image 2 当成设计师,而不仅仅是画笔
从 duct-type-2 的惊艳首秀可以看出,当一个图像大模型可以完美遵循复杂指令、写对几十个汉字并且排版精美时,它就从单纯的“视觉玩具”跨越到了“生产力基建”。
在即将到来的 GPT Image 2 时代,这要求我们在使用时,给出像给人类外包设计师一样的“需求文档”,而不是单纯堆砌形容词。AI 生态的这种跨越式升级,正在迅速重构我们的数字资产创造方式,并真正拉低所有人的创作门槛。