AI画图最难的一关，被OpenAI一夜解决了AI画图最难的一关，被OpenAI一夜解决了如果只用一张图，来判断AI画图

AI画图最难的一关，被OpenAI一夜解决了

如果只用一张图，来判断AI画图有没有"质变"。

那一定是——钢琴键盘。

过去几年，几乎所有模型都在这里翻车：黑白键数量不对、排列混乱、结构错误。

但这一次，OpenAI把这个问题，彻底解决了。

它第一次，不只是画得像，而是画对了

昨天，OpenAI悄悄放出了一个新模型： ChatGPT Images 2.0（gpt-image-2）

没有发布会，没有刷屏营销。

这条消息直接炸了：

原因很简单——

这是一次"小升级"吗？不是。是一次质变。

在"钢琴键盘测试"中，它第一次做到：

键位正确
结构合理
逻辑自洽

甚至有人让它标出"中央C"的位置。虽然文字标注还有瑕疵，但键盘本身——已经无可挑剔。

这件事的意义在于：

AI第一次开始"理解结构"，而不是只会"生成外观"。

换句话说：不是画得更像，而是第一次——画对了。

中文渲染，终于能看了

对中文用户来说，AI画图最大的问题一直是：写字。

以前的效果基本是：要么乱码，要么错字，要么"像汉字但不是汉字"。几乎没有实际使用价值。

但这一次，明显不一样了。

有开发者测试生成无锡相关图片，标注了"小笼包""太湖"，结果是：已经可以读了，而且大部分是对的。

Hacker News上甚至有用户专门点评：

"The improvement in Chinese text rendering is remarkable and impressive!"

当然，问题还没完全解决。比如"小笼包"的"笼"字偶尔还会写错。

但可以说：这是目前为止，AI中文渲染最接近"可用"的一次。

低至$0.006一张，成本断崖式下降

具体价格（开发者实测）：

低质量 1024×1024 → $0.006/张
中等质量 1024×1024 → $0.053/张
高质量 1024×1024 → $0.211/张

对比Gemini 3.1 Flash生成4096×4096约$0.151/张：低分辨率场景下，便宜了一个数量级。

这意味着：AI画图第一次真正具备"规模化使用"的成本条件。

大多数商业场景——电商配图、社媒封面、产品概念图——低/中质量已经完全够用。

连漫画都能直接用了

有人测试让它画两页日文漫画：分镜正确、表情自然、对话气泡完整、日文文本基本可读。

开发者原话：

"I had it produce a two-page manga with Japanese dialogue. Nearly perfect."

这意味着什么？

AI画图正在从"生成概念图"，变成"直接参与内容生产"。设计师、漫画作者、内容创作者——你们的工具箱里，该加上这一件了。

但问题也来了

Hacker News上有一条高赞评论：

"Pretty mixed feelings on this. The images are very good. I'd find it hard to know that they're AI. Which I think is a problem."

翻译一下：图片太真实了，真实到我分不清是不是AI生成的。

这听起来像夸奖，但其实是个警告。

当你开始分不清真假，这件事本身就已经变成问题。伪造信息、欺诈、舆论操控——这些不是假设，是正在发生的现实。

目前OpenAI接入了C2PA标准（可验证图片来源），但这个体系还远没有普及。

两种路线，一个分歧

有开发者对比了OpenAI和Gemini的图片编辑功能，发现一个有趣的区别：

"Gemini拒绝任何涉及知名人物的操作。OpenAI则每次都乐意编辑。"

这背后其实是两种路线：Gemini更安全，OpenAI更自由。

谁对谁错？没有标准答案。但你选哪边，决定了你能用AI做什么。

四件事，比"更好看"更重要

这次更新，真正重要的不是"更好看"，而是四件事：

结构理解——从"像"到"对" 中文可用——从"展示"到"实用" 成本下降——从"尝试"到"规模" 生产能力——从"辅助"到"参与"

这可能是AI画图第一次，从"能玩"变成"能用"。

很多行业，不会慢慢变化——而是某一天，突然就不一样了。