【产品观察 | GPT-5.5】GPT-5.5 上线:OpenAI 重回王座,这次不是烟雾弹

4 阅读9分钟

封面图

黑暗森林:当整个互联网的图片都不能信了

GPT-image-2上线那周,Twitter/X上开始大量出现以假乱真的「新闻图」。政要合影、产品发布会、科技公司签约现场——全是AI生成的。

最初有人还当真了,转发、评论、分析,一通操作猛如虎,评论区里才有人幽幽说了一句:「兄弟,这是GPT-image-2画的。」

这种状态,业界给了它一个名字——「黑暗森林」。不是刘慈欣那个社会伦理学版本,而是字面意思:你看到的任何一张图片,都可能是假的;你听到的任何一段录音,都可能是合成的。

互联网的内容信任体系,在这一刻出现了一道裂缝。

等等,这张图是AI画的还是真实拍摄的?

而GPT-5.5的发布,恰好踩在这个情绪高点上。

用户对OpenAI产品的关注度本就已经被GPT-image-2拉满,此刻GPT-5.5的出现,更像是一场精心设计的「信心反攻」——用更强的技术能力,把之前由自己制造的混乱,用更大的动静来掩盖。

来源:9to5google.com

来源:9to5google.com

GPT-5.5:benchmark上的王座回归

72.4%:Google亲自背书的SOTA

2026年4月9日——注意这个时间点,比GPT-5.5正式发布早了整整两周——Google悄无声息地更新了Android Bench排名。

这个榜单是Google官方维护的AI编码能力测试,专门衡量各大模型在Android开发场景下的表现,测试内容包括Jetpack Compose UI、协程与Flow异步编程、Room持久化、Hilt依赖注入等硬核项目。

结果出来,炸了:GPT-5.4以72.4%的得分与Gemini 3.1 Pro Preview并列第一,GPT-5.3-Codex以67.7%排名第三,超过了Claude Opus 4.6的66.6%1

这里有一个容易被忽略的细节——这不是随便哪个野榜,而是Google自己的benchmark,用Google的标准测Google的场景,结果OpenAI的模型和Gemini并列第一。

你开心就好,我先不展开了

这意味着什么?意味着在Android开发这个具体场景里,GPT-5.4已经和Google亲儿子站在同一水平线上了。

Google:这分数不是我给GPT打的,是你们自己考的

当然,benchmark不等于现实表现。Google在更新说明里也留了一句话:「这些结果不应被视为绝对事实,现实往往与受控测试不同。」2 这是Google的体面,但工程师们已经在用脚投票了。

复杂任务规划:不再只是「生成文本」

GPT-5.5真正值得说的突破,是官方在发布博客里用的那个词——「复杂任务规划」3

用一个具体例子来理解这意味着什么。以前你让GPT-4写一段代码,它会给你一段代码;你让它总结一篇文章,它会给你一段摘要。这些都是「单步」或「短序列」任务,你给输入,它给输出,中间的决策过程由你负责。

但现实世界的问题是复杂的、多步骤的、充满不确定性的。比如你让它规划一个从旧金山到东京的七日文化深度游,要考虑航班、酒店、每日主题行程、餐厅预订,还得预留天气变化的备用方案。

GPT-4会生成一份看起来挺合理的清单,但各部分之间可能缺乏连贯性,也无法动态权衡约束条件。

GPT-5.5展示的新能力,是能够将这个宏大目标自动分解成一系列逻辑严密、前后关联的子任务,并预估执行过程中可能出现的分支和风险1

OpenAI在官方描述里把GPT-5形容为一个「具备街头智慧和大局观的实战专家」,而不是一个「学识渊博但有时纸上谈兵的学者」。

这听起来很性感,但「像人一样规划」这个命题离真正落地还有多远,目前没有人敢打包票。不过,对于需要把AI嵌入核心业务流程的企业来说,这个方向的每一步进展,都值得认真看。

来源:9to5mac.com

来源:9to5mac.com

产品力回归:那个熟悉的OpenAI回来了

Codex:三个月5倍增长的爆发

如果GPT-5.5是技术秀场,那Codex才是这场发布里真正的商业杀招。

截至2026年4月,OpenAI披露了一个数字:Codex拥有超过300万周活用户4。三个月增长5倍,70%月环比增长。这个增速是什么概念?

GitHub Copilot达到这个量级用了将近两年,Codex只用了不到一个季度。

Codex是OpenAI在2026年2月推出的Mac原生应用,主打「vibe coding」——用自然语言驱动整个编程工作流。

它不是Copilot那种嵌入式辅助工具,而是一个独立环境,你可以直接让它操作本地代码库、跑测试、写文档,甚至帮你review代码。它既能用本地消息处理,也支持云端任务执行1

OpenAI给它的定位非常明确:专业开发者的主力工具,而不是新手入门玩具。这从配套的订阅策略里能看得更清楚。

订阅层级:一场对Anthropic的反向攻势

2026年4月9日,OpenAI宣布推出100/月的ChatGPTPro计划,和原来100/月的ChatGPT Pro计划,和原来200/月的Pro并列存在44

100档提供5倍于100档提供5倍于20 Plus档的Codex使用量,$200档则是20倍4

为什么在这个时间点推出$100档?

答案藏在两周前——2026年4月4日,Anthropic正式封锁了第三方agentic AI harness(包括当时极受欢迎的OpenClaw)使用Claude订阅来获取模型能力1

用户必须通过Anthropic官方API或额外使用额度来付费,不能再用$20/月的Claude订阅「薅」第三方工具了。

这个政策的本质是Anthropic不想让订阅制成为第三方agent工具的「无限自助餐」——算力消耗太大,用户付的20美元根本兜不住。

但对于已经重度依赖OpenClaw的开发者来说,这等于突然要换工具链。

OpenAI的反应速度非常快。OpenClaw的创始人Peter Steinberger在2026年2月已经被OpenAI挖走,负责个人agent战略1

OpenAI一边把人收了,一边在两周后推出$100 Pro档——精准锁定被Anthropic「驱赶」出来的OpenClaw用户群体。

「Codex没有Anthropic那种限制,」Steinberger入职后公开表示。这句话的讽刺意味,大概能在Anthropic的法务部门引发一阵骚动。

Anthropic:我封的是订阅滥用,你OpenAI直接把人挖走了?

竞争格局:AI军备竞赛进入新阶段

算力对决:30GW vs 7-8GW

Anthropic最近其实过得不差。2026年4月,它刚刚披露年化收入(ARR)已突破300亿,超过了OpenAI当时300亿,超过了OpenAI当时240-250亿的ARR44

企业市场对Claude Code和Claude Cowork的采用速度,让Anthropic在商业化层面实现了真正的超车。

OpenAI不甘示弱,直接把内部备忘录送到了投资者手里4。这份备忘录的核心数据是:OpenAI计划2030年达到30吉瓦(GW)算力,而预计Anthropic在2027年底只能达到7-8GW。

OpenAI在备忘录里写了一句很直接的话:「即使取这个范围的上限,我们的坡度也在加速拓宽。

」(Even at the high end of that range, our ramp is materially ahead and widening.)5

这话翻译成人话就是:「你跑得快,但我们跑得更快,而且我们的加速度比你大。」

当然,算力不等于智能,更不等于市场份额。

Anthropic CFO Krishna Rao随后在与Google和Broadcom联合公告中表示:「我们正在进行迄今为止最重要的算力承诺,以跟上这前所未有的增长步伐。

4 这不是认输,而是各说各话——两家公司都在向资本市场证明自己才是长期赢家。

30GW vs 7-8GW,这数字差距比我的工资条还刺眼

商业模式:广告收入25亿到25亿到1000亿

如果说算力是面子,那商业模式就是里子。

2026年4月9日,Reuters独家报道了OpenAI的广告收入预测:2026年预计25亿,2030年目标25亿,2030年目标1000亿6

这意味着OpenAI的收入结构正在发生根本性转变——从API调用和订阅服务,向一个包含广告投放的混合商业模式迁移。

1000亿的广告收入是什么概念?Google2025年全年广告收入大约是1000亿的广告收入是什么概念?Google 2025年全年广告收入大约是3000亿,Facebook大约是$1300亿。

OpenAI2030年的目标相当于再造一个大半个Facebook的体量——全部靠AI驱动的广告。

这个数字当然包含了巨大的预期成分,但它揭示了一个明确信号:OpenAI不再满足于做「卖铲子的公司」,它要直接下场做平台、做分发、做流量变现。

与此同时,挑战也是真实的。英国Stargate项目在2026年4月被暂停,原因是英国工业能源价格位居全球前列,加上版权法规的不确定性7。美国AI基础设施竞争激烈,监管压力从欧洲延伸到更多地区。

而GPT-image-2引发的「黑暗森林」效应,正在以另一种方式给OpenAI制造麻烦:用户对AI生成内容的信任度下降,监管机构对深度伪造的审查压力上升,整个行业都要为「图片不能信了」这个后果买单。

判断:OpenAI赢了吗?

写到这里,可以试着给一个诚实的判断了。

能力上:GPT-5.5确实拿回了SOTA地位。Google Android Bench的72.4%不是随便给的,是用Google的标准、测Google的场景,测出来的结果。

复杂任务规划的能力跃迁,至少在方向上是正确的22

产品上:Codex的爆发和订阅层级的精准卡位,说明OpenAI不只会做research。

2020到100再到200的梯度定价,加上200的梯度定价,加上100档对OpenClaw流出用户的精准锁定,这套组合拳打得很聪明11

竞争上:Anthropic ARR超车是事实,Claude Code在企业市场的先发优势也真实存在。

胜负远未分晓,这更像是一场马拉松的第五公里——有人领先半步,但没人知道第十公里会发生什么4

风险上:监管压力、信任危机、算力瓶颈,每一项都是真实存在的挑战。$1000亿广告收入的野望很性感,但AI公司做广告平台的故事,还没有成功先例。

OpenAI赢了吗?至少现在,它重新站在了擂台中央。

那个我们熟悉的OpenAI——有技术爆发力、有产品嗅觉、有商业野心、也有竞争对手——确实回来了。但「回来」和「赢了」,中间还隔着一条银河系。


参考文献

3 OpenAI推出GPT-5:模型首次具备复杂任务规划能力 (2026-04-17,敲码拾光/The Verge)

8 OpenAI的GPT-5.5现已上线 (2026-04-23,Dataconomy CN)

2 Google更新最佳AI模型:Gemini与GPT-5.4并列第一 (2026-04-09,9to5Google)

9 OpenAI推出$100/month Pro计划针对Codex用户 (2026-04-09,9to5Mac)

4 ChatGPT Pro $100计划:Codex 5倍使用量对比 (2026-04-10,VentureBeat)

10 OpenAI向股东备忘录猛烈批评Anthropic (2026-04-09,CNBC)

11 OpenAI预计2026年广告收入25亿,2030年达25亿,2030年达1000亿 (2026-04-09,Reuters)

7 OpenAI暂停英国Stargate项目 (2026-04-09,CNBC)

12 Introducing GPT-5.5 (2026-04-23,OpenAI官方)

12 GPT-5.5 System Card Safety (2026-04-23,OpenAI官方)

参考文献

  1. GPT drafts, Claude critiques: Microsoft blends rival AI models in new Copilot upgrade

  2. Google updates best AI models for coding Android apps, Gemini & GPT 5.4 at the top

  3. OpenAI 推出 GPT-5:模型首次具备复杂任务规划能力,向人类级推理迈进 - 敲码拾光--编程开发者的百宝箱

  4. OpenAI introduces ChatGPT Pro $100 tier with 5X usage limits for Codex compared to Plus

  5. OpenAI projects 2.5billioninadrevenuethisyear,2.5 billion in ad revenue this year, 100 billion by 2030, Axios reports

  6. GPTImage 2 (gpt-image-2):OpenAI图像模型 | APIMart

  7. OpenAI halts UK stargate project amid regulatory and energy price concerns

  8. OpenAI 的 GPT-5.5 现已上线 - Dataconomy CN

  9. OpenAI introduces $100/month Pro plan aimed at Codex users, here’s what it includes

  10. OpenAI slams Anthropic in memo to shareholders as its leading AI rival gains momentum

  11. OpenAI下一代模型Spud确认为GPT 5.5,Brockman称"两年研究成果在此开花"

  12. IntroducingGPT-5|OpenAI


延伸入口


文末收口图