作为AI模型聚合平台**库拉KULAAI(c.kulaai.cn)**的长期用户,4月21日GPT-Image-2发布当天我就拉出来和DALL-E 3做了横向对比。跑了一轮下来,差距比预期大得多,但实测中也暴露了一些真实问题。
Arena三榜全第一,+242 Elo什么概念
先看硬数据。GPT-Image-2在Image Arena三个主榜单上全部登顶。文生图1512分,领先第二名242个Elo分;单图编辑1513分,领先125分;多图编辑1464分,领先90分。文生图7个子类全部第一,文本渲染单项比上代GPT-Image-1.5提升了316分。
Arena官方用了"clean sweep"这个词。创始人@ml_angelopoulos的原话是"literally broke the chart——有史以来最大的差距"。
核心参数:最高4096×4096分辨率,生成速度比前代快一倍,文字渲染准确率从90-95%跳到约99%。定价每百万token 8−8−30,折合单张图片0.006−0.006−0.211。模型分Instant和Thinking两种模式,后者集成推理和网页搜索,单次最多生成8张风格一致的图片。
架构分叉:不是迭代,是重写
DALL-E 3是扩散模型,从噪点逐步去噪成型。同一段prompt跑两次结果可能完全不同,因为起点是随机的。这套路线在光影和纹理上确实有优势,油画、水彩等纯艺术风格表现力不弱。
GPT-Image-2走了完全不同的路。研究负责人Boyuan Chen将其定义为"GPT for images"——一个从头设计的独立系统,不再基于GPT-4o的图像pipeline。核心变化是从两阶段生成转向单次推理。
用一个类比:过去的模型是"先听懂你说什么,再动手画",中间有一次信息压缩;GPT-Image-2是"边理解边画",语言理解和图像生成在同一过程中完成。所以文字渲染终于准了——生成每个像素时,模型仍然"知道"自己在写什么字。
Thinking模式开启后,模型在落笔前先规划构图,生成后检查输出,发现错误还会迭代修正。anti gamble创始人@damianplayer的拆解是"reasoning mid-generation——plans the composition, checks its own output"。DALL-E 3没有这个机制,画完就完,对错全凭运气。
架构决定了它能"读懂"文字,Thinking让它能"检查"文字。三层能力叠在一起,文字渲染从短板变成了长板。
文字渲染:三年硬伤的正面回应
AI图像生成积攒了三年最大的笑话,一直是文字。DALL-E 3拼不对复杂单词,Midjourney把招牌写成乱码。文字渲染是生图模型的"手指问题"——不是不重要,而是一做就露馅。
GPT-Image-2把准确率拉到约99%。TechCrunch记者让模型生成一份墨西哥餐厅菜单,输出结果"可以直接放进餐厅使用,客人不会察觉任何异样"。VentureBeat测试生成三大帝国历史地图,附完整图例,评价是"seemingly flawlessly"。
中文表现更让人意外。生成一张广州小学数学试卷,卷头标题、填空题下划线、几何图形标注,宋体楷体排版全被精准还原。甚至传统书法真迹、泛黄报纸这类高难度排版,也能做到严丝合缝。
99%和95%之间看着只差几个百分点,但对实际工作来说,意味着海报、菜单、UI截图、品牌物料第一次可以跳过人工修正,直接交付。
世界知识:不只是画得像,是"知道"它长什么样
GPT-Image-2的训练数据明显偏向真实世界的视觉素材。让它还原抖音直播界面,它不只画了人物,还完整复刻了左下角评论区、右侧点赞按钮、顶部观众人数和跑马灯,所有交互元素的层级逻辑全部正确。让它还原英雄联盟团战画面,峡谷地形、英雄头顶的血条、技能特效的光影、小地图的UI框,一并到位。
DALL-E 3在这些场景上做不到。纯艺术风格它还能打,但一旦涉及精确文字和可信布局,没有还手之力。
实测落地:六个场景说明问题
产品经理实测了六个场景:产品架构图,一句话生成,模块划分和层级关系都清楚;App UI界面,四个屏幕一次出图,中文几乎零错误。从UI图到可运行的前端页面,整个过程没画一笔原型,没写一行代码,两句话等了不到10分钟。
电商详情页也是一句话搞定——上传一张商品图,产品卖点、使用场景、参数信息、排版配色一次全出来。五一攻略长图、产品宣传海报,同样一步到位。
但实测中也有真实问题。首先是复现能力,同样关键词、同样垫图,无法稳定输出同样的结果。其次是排版结构,模型倾向于把所有海报做成模块化分割,文字编排路数相对单一。99%是实验室数字,真实世界的多字体、多排版场景能不能扛住,5月API开放后才会有定论。
必须正视的问题
Jake Handy在发布日的技术拆解中指出:让GPT-Image-2成为最好生产力工具的那组能力——精确的文字渲染、可信的UI布局、真实世界的视觉词汇——恰好也是制造虚假信息的完美工具集。假UI截图、假终端画面、假聊天记录,每一样都是密集文字叠加在已知视觉词汇之上。
过去的模型因为文字太烂,反而天然带有一层"防伪标记"。GPT-Image-2把这层屏障拆掉了。OpenAI的C2PA元数据水印被产品负责人Adele Li自己承认"is not a silver bullet"。
"有图有真相"的时代,确实回不去了。
趋势判断
从产业视角看,GPT-Image-2标志着AI图像生成从"creative novelty"进入"production infrastructure"阶段。政策面,国家发改委明确将在"人工智能+"基础设施等领域开展扩大有效投资行动。2026年国产算力芯片出货量预计翻倍以上增长。
但工具越来越强,对人的要求反而越来越高。AI降低的是执行门槛,拉高的是决策门槛。能同时接入多个模型、方便横向对比的工具链,比押注单点选择更务实。工具会越来越强,但方向永远由人把控。