奥特曼亲自上阵,Images 2.0登顶王座!大米刻字,生图跨入GPT-5时代

1 阅读10分钟

P.S. 无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

凌晨三点,我正躺床上刷X,突然弹出来一条推送:Sam Altman开直播了。我第一反应是,这老哥又搞什么飞机?大半夜不睡觉。结果点进去一看,直接清醒了。奥特曼亲自带队,就20分钟,扔出来一个ChatGPT Images 2.0。我当时脑子就一个字:炸。

你们知道吗,这哥们原话是这么说的——从gpt-image-1到gpt-image-2,感觉就像直接从GPT-3跳到了GPT-5。不是小步迭代,是跨代打击。我作为一个从DALL·E时代就开始玩AI生图的老韭菜,听完这话手都在抖。因为这次真的不一样,完全不一样。

大米刻字?这已经不是生图了,是手术刀

最离谱的是那个大米刻字的演示。直播里就一句prompt:一堆大米,在其中一颗米粒上写上"GPT image 2"。没了。就这么简单。然厚模型开启思考模式,自己脑补微距视角、算景深、在潜空间里找那颗米的物理坐标,最后把字刻上去。放大几十倍看,那颗米的质感完全符合物理规律,文字顺着米粒的微小弧度嵌在表面,连光影都对了。

我当场破防。这精度已经不是"生成图片"了,这是像素级外科手术。以前你让AI改个领子,整张图全跟着崩。现在呢?指哪打哪,微观控制到这种程度,设计师看了真的沉默,修图师看了直接流泪。VentureBeat那边测试的人说得好:模型对空间位置的理解已经跨过了临界点。

关键升级一览:

· 像素级精度:小字号文本、图标、UI元素一键生成,支持3:1到1:3全尺寸输出 · 多语言质变:中日韩、印地语、孟加拉语、泰卢固语精准渲染,语句通顺 · 照片级逼真:学会"不完美",胶片颗粒、运动模糊、过曝全都能复现 · 会思考:首个具备推理能力的图像模型,联网搜索、自检输出,知识更新至2025年12月

中文直接封神!OpenAI自己玩梗"稳稳地接住你"

然后中文直接封神。OpenAI研究科学家陈博远亲自下场,搞了一整页全中文彩色漫画,讲他自己做ChatGPT Image 2中文文本渲染优化的故事。五排画面,第一排他在电脑前喝珍珠奶茶,墙上粘着一根香蕉——懂的都懂,致敬艺术圈名场面。第二排是他老家无锡的多语言手绘信息图,密密麻麻的中文小字全部渲染正确,没有一个错别字。

第三排团队看到效果集体兴奋。第四排他收到奥特曼的祝贺短信。第五排,高潮来了——他看到奥特曼生成的祝贺图,上面写着"稳稳地接住你"。

我直接笑喷。用过GPT的都知道,这货在中文对话里动不动就"我会稳稳地接住你""你的感受是合理的",那股子油腻又真诚的美式心理咨寻味,被中文用户吐槽了大半年。结果漫画里的陈博远当场暴走,大喊"天呐!它又学会了接住!"旁边队友冒冷汗:"我们正在努力修复它!"这波自嘲,我给满分。手动狗头。

但玩笑归玩笑,这背后说明一件事:中日韩文字在AI生图里不再是二等公民了。过去你让AI写个中文,出来全是鬼画符,"enchuita""churiros"这种魔幻拼写看多了。现在不仅字拼得对,语句也通顺,排版还好看。日语、韩语、印地语、孟加拉语、泰卢固语,全都能拿捏。OpenAI放出的Demo里还有全日语少年冒险漫画、涵盖九种语言的印度书电封面、韩语高级韩屋住宿广告。语言壁垒,这次是真的破了。TechCrunch测试墨西哥餐厅菜单,出来的菜品和价格完全正常,直接能用。

Arena屠榜!242分暴击谷歌Nano Banana

再说说那个LM Arena榜单。Images 2.0在盲测时代号叫"DuckTape",正式发布后直接登顶全球AI生图王座。全部7个文生图类别,全部第一。领先谷歌Nano Banana 2/Pro整整242分。242分什么概念?在生图这个赛道,差10分就是肉眼可见的差距,差242分基本是降维暴击。谷歌那边刚发Nano Banana 2没多久,以为能喘口气,结果OpenAI这一巴掌扇过来,又快又狠。

Simon Willison做了那个经典的"浣熊火腿电台"测试。gpt-image-1根本找不到浣熊在哪,Claude Opus 4.7也懵圈。Nano Banana 2倒是找到了,但位置太明显,像"可怜你"。Images 2.0呢?直接拿捏,隐藏得恰到好处,逻辑全对。这不是运气,是空间推理能力真的上来了。

会思考的图像模型:从黑盒到Agent

技术层面,这次最大的升级是"会思考"。Images 2.0分两种模式:即时模式(Instant Mode)和思考模式(Thinking Mode)。思考模式下,模型不再是个黑盒,它会先研究、规划、推理图像结构,甚至联网搜实时信息。知识截止直接拉到2025年12月,比之前的模型新了一大截。

你可以上传一个复杂PDF,它自动提取关键图表、数据和结构,排版成一张横版海报。你还可以让它一次生成8张风格连贯的图,角色和物体完全保持一致。做漫画分镜、做故事板、做社交媒体素材,以前要一张一张prompt,现在一句搞定。OpenAI产品负责人Adele Li在发布会上说,这解决了以前最烦人的工作流——手动拼接。

更离谱的是,它还能生成可扫描的二维码。团队让Images 2.0搜集网友反馈并做成一张图,结果模型直接在里面塞了一个真的能扫的二维马。这已经不是"画画"了,这是理解信息编码和视觉载体的关系。Research Lead Boyuan Chen说,底层架构是"revamped from scratch",是一个"generalist model",或者说"GPT for images"。

Thinking Mode 能干嘛:

  1. 联网搜索实时信息,确保视觉内容准确(比如明天旧金山天气+活动推荐的信息图)
  2. 分析上传文件(PPT、PDF),提取核心数据重做成海报
  3. 一次直出8张连贯画面,角色、物体、风格保持一致
  4. 自检输出,推理布局结构而不是盲目生成

照片级逼真:AI终雨学会了"不完美"

风格上也开窍了。以前的AI图总有一股"AI味",皮肤太光滑、光线太均匀、构图太完美,一眼假。Images 2.0反其道而行之,开始学会"不完美"。官方Demo里有一组抓拍快照,35mm胶片质感,可见颗粒感,构图略微偏离中心,衣服和头发在风中飘动。不告诉你是AI生成的,你会以为这是某个摄影师在公路旁随手按下快门的结果。

还有一组一次性相机风格的照片,模拟2000年代初美国高中电脑室场景,学生们挤在米色CRT显示器前。闪光灯过曝、轻微运动模糊、角落里印着"02 18 04"的橙色日期戳,所有胶片时代的不完妹都被精准复现。OpenAI还专门放了一张横版中国传统长卷山水画,笔墨晕染和留白都有模有样。1960年代法国新浪潮电影海报、装饰艺术风格书签、动漫角色设定图,每一种视觉语言都保持了高度一致性。

我昨晚自己试了一下——对,我熬夜测了。让它生成一张布鲁克林抹茶店kizuki的广告素材,四种社交平台尺寸一步到位。又试了一张macOS窗口截图,窗口层叠、终端后台、桌面杂乱无章,生成出来跟真截图几乎没区别。还有那张穿越回2015年OpenAI成立时的阶梯教士,光线环境、PPT文案、人物面部一致性,全到位。最狠的是人类登月360°全景图,太阳位置、影子方向、细节逻辑,全对。扔进全景查看器直接能看,没有一处穿帮。

开放策略与定价:免费能用,但狠活要掏钱

开放策略也很聪明。今天起所有ChatGPT和Codex用户都能用基础版,免费档也能体验到核心模型升级。但思考模式、联网搜索、多图生成这些狠活,只有Plus、Pro、Business和Enterprise能用。Pro用户还有额外的ImageGen Pro模型,质量更顶。

API方面,gpt-image-2已经上线。支持最高4K分辨率(目前在beta),宽高比从3:1到1:3随便调。价格方面没涨,输出还是30/1Mtokens,输入30/1M tokens,输入8,缓存输入$2。对开发者来说,这意味着本地化广告、多语言信息图、教育内容、设计工具,全可以批量自动化了。Codex里更是直接整合了图像生成,设计团队出UI方案、比选项、转产品,全程不用切工具。

安全性上OpenAI也没含糊。产品负责人Adele Li在闭门发布会上被问到政治影响和虚假信息时回应:他们拿安全和选举干扰极其认真,有监控和保护措施。所有输出都带AI生成元数据标签。虽然其他平台标准不一,但ChatGPT会坚持自己的红线。这话听着像公关,但考虑到今年AI UGC被《纽约时报》点名用于政治影响 campaign,OpenAI确实不敢在这个节骨眼上放飞。

设计师的护城河,还在吗?

说实话,作为一个搞了这么多年AI的人,我第一次觉得设计师的护城河可能真的要没了。不是危言耸听,是Images 2.0已经跨过了"玩具"和"工具"那条分界线。从DALL·E到Midjourney到Stable Diffusion,AI生图一直处在"够用但不太行"的状态。文字渲染翻车、多语言拉胯、风格千篇一律、构图一眼AI,每个痛点都劝退了想正经用的人。

Images 2.0一口气全补上了,还加了思考能力和多图连贯生成。它可能不是完美的,但它是第一个让我真心觉得"这东西能用来干活"的AI图像模型。演示文稿配图、社交媒体海报、产品宣传卡片、学术论文海报、多语言漫画、UI截图模拟……过去要开Photoshop折腾半天的活,现在一句prompt搞定。

当然,它也有边界。知识截止到2025年12月,太新的热点它可能不知道。思考模式比即时模式慢,因为背后要做更多推理和搜索。4K API还在beta,不是谁都能用。但这些问题,在"从GPT-3到GPT-5"的跨越面前,真的不算什么了。

奥特曼在直播最后说:"Images are a language, not decoration. A good image does what a good sentence does—it selects, arranges, and reveals." 翻译成大白话就是:图不是装饰,图是会说话的语言。这次,OpenAI真的让图像开始说话了。而且说得挺溜。

好了,我说完了。你们怎么看?凌晨三点被炸醒的肯定不止我一个。有没有已经上手试过的兄弟?来评论区聊聊,你最想用Images 2.0搞什么?是给自己做个漫画,还是直接卷一波设计稿?我蹲一波反馈,咱们下期见!

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj