【产品观察 | GPT-5.5】GPT-5.5 上线：OpenAI 重回王座，这次不是烟雾弹GPT-5.5于4月23日上

封面图

黑暗森林：当整个互联网的图片都不能信了

GPT-image-2上线那周，Twitter/X上开始大量出现以假乱真的「新闻图」。政要合影、产品发布会、科技公司签约现场——全是AI生成的。

最初有人还当真了，转发、评论、分析，一通操作猛如虎，评论区里才有人幽幽说了一句：「兄弟，这是GPT-image-2画的。」

这种状态，业界给了它一个名字——「黑暗森林」。不是刘慈欣那个社会伦理学版本，而是字面意思：你看到的任何一张图片，都可能是假的；你听到的任何一段录音，都可能是合成的。

互联网的内容信任体系，在这一刻出现了一道裂缝。

等等，这张图是AI画的还是真实拍摄的？

而GPT-5.5的发布，恰好踩在这个情绪高点上。

用户对OpenAI产品的关注度本就已经被GPT-image-2拉满，此刻GPT-5.5的出现，更像是一场精心设计的「信心反攻」——用更强的技术能力，把之前由自己制造的混乱，用更大的动静来掩盖。

来源：9to5google.com

来源：9to5google.com

GPT-5.5：benchmark上的王座回归

72.4%：Google亲自背书的SOTA

2026年4月9日——注意这个时间点，比GPT-5.5正式发布早了整整两周——Google悄无声息地更新了Android Bench排名。

这个榜单是Google官方维护的AI编码能力测试，专门衡量各大模型在Android开发场景下的表现，测试内容包括Jetpack Compose UI、协程与Flow异步编程、Room持久化、Hilt依赖注入等硬核项目。

结果出来，炸了：GPT-5.4以72.4%的得分与Gemini 3.1 Pro Preview并列第一，GPT-5.3-Codex以67.7%排名第三，超过了Claude Opus 4.6的66.6%1。

这里有一个容易被忽略的细节——这不是随便哪个野榜，而是Google自己的benchmark，用Google的标准测Google的场景，结果OpenAI的模型和Gemini并列第一。

你开心就好，我先不展开了

这意味着什么？意味着在Android开发这个具体场景里，GPT-5.4已经和Google亲儿子站在同一水平线上了。

Google：这分数不是我给GPT打的，是你们自己考的

当然，benchmark不等于现实表现。Google在更新说明里也留了一句话：「这些结果不应被视为绝对事实，现实往往与受控测试不同。」2 这是Google的体面，但工程师们已经在用脚投票了。

复杂任务规划：不再只是「生成文本」

GPT-5.5真正值得说的突破，是官方在发布博客里用的那个词——「复杂任务规划」3。

用一个具体例子来理解这意味着什么。以前你让GPT-4写一段代码，它会给你一段代码；你让它总结一篇文章，它会给你一段摘要。这些都是「单步」或「短序列」任务，你给输入，它给输出，中间的决策过程由你负责。

但现实世界的问题是复杂的、多步骤的、充满不确定性的。比如你让它规划一个从旧金山到东京的七日文化深度游，要考虑航班、酒店、每日主题行程、餐厅预订，还得预留天气变化的备用方案。

GPT-4会生成一份看起来挺合理的清单，但各部分之间可能缺乏连贯性，也无法动态权衡约束条件。

GPT-5.5展示的新能力，是能够将这个宏大目标自动分解成一系列逻辑严密、前后关联的子任务，并预估执行过程中可能出现的分支和风险1。

OpenAI在官方描述里把GPT-5形容为一个「具备街头智慧和大局观的实战专家」，而不是一个「学识渊博但有时纸上谈兵的学者」。

这听起来很性感，但「像人一样规划」这个命题离真正落地还有多远，目前没有人敢打包票。不过，对于需要把AI嵌入核心业务流程的企业来说，这个方向的每一步进展，都值得认真看。

来源：9to5mac.com

来源：9to5mac.com

产品力回归：那个熟悉的OpenAI回来了

Codex：三个月5倍增长的爆发

如果GPT-5.5是技术秀场，那Codex才是这场发布里真正的商业杀招。

截至2026年4月，OpenAI披露了一个数字：Codex拥有超过300万周活用户4。三个月增长5倍，70%月环比增长。这个增速是什么概念？

GitHub Copilot达到这个量级用了将近两年，Codex只用了不到一个季度。

Codex是OpenAI在2026年2月推出的Mac原生应用，主打「vibe coding」——用自然语言驱动整个编程工作流。

它不是Copilot那种嵌入式辅助工具，而是一个独立环境，你可以直接让它操作本地代码库、跑测试、写文档，甚至帮你review代码。它既能用本地消息处理，也支持云端任务执行1。

OpenAI给它的定位非常明确：专业开发者的主力工具，而不是新手入门玩具。这从配套的订阅策略里能看得更清楚。

订阅层级：一场对Anthropic的反向攻势

2026年4月9日，OpenAI宣布推出 $100/月的ChatGPT Pro计划，和原来$ 200/月的Pro并列存在4 4。

$100档提供5倍于$ 20 Plus档的Codex使用量，$200档则是20倍4。

为什么在这个时间点推出$100档？

答案藏在两周前——2026年4月4日，Anthropic正式封锁了第三方agentic AI harness（包括当时极受欢迎的OpenClaw）使用Claude订阅来获取模型能力1。

用户必须通过Anthropic官方API或额外使用额度来付费，不能再用$20/月的Claude订阅「薅」第三方工具了。

这个政策的本质是Anthropic不想让订阅制成为第三方agent工具的「无限自助餐」——算力消耗太大，用户付的20美元根本兜不住。

但对于已经重度依赖OpenClaw的开发者来说，这等于突然要换工具链。

OpenAI的反应速度非常快。OpenClaw的创始人Peter Steinberger在2026年2月已经被OpenAI挖走，负责个人agent战略1。

OpenAI一边把人收了，一边在两周后推出$100 Pro档——精准锁定被Anthropic「驱赶」出来的OpenClaw用户群体。

「Codex没有Anthropic那种限制，」Steinberger入职后公开表示。这句话的讽刺意味，大概能在Anthropic的法务部门引发一阵骚动。

Anthropic：我封的是订阅滥用，你OpenAI直接把人挖走了？

竞争格局：AI军备竞赛进入新阶段

算力对决：30GW vs 7-8GW

Anthropic最近其实过得不差。2026年4月，它刚刚披露年化收入（ARR）已突破 $300亿，超过了OpenAI当时$ 240-250亿的ARR4 4。

企业市场对Claude Code和Claude Cowork的采用速度，让Anthropic在商业化层面实现了真正的超车。

OpenAI不甘示弱，直接把内部备忘录送到了投资者手里4。这份备忘录的核心数据是：OpenAI计划2030年达到30吉瓦（GW）算力，而预计Anthropic在2027年底只能达到7-8GW。

OpenAI在备忘录里写了一句很直接的话：「即使取这个范围的上限，我们的坡度也在加速拓宽。

」（Even at the high end of that range, our ramp is materially ahead and widening.）5

这话翻译成人话就是：「你跑得快，但我们跑得更快，而且我们的加速度比你大。」

当然，算力不等于智能，更不等于市场份额。

Anthropic CFO Krishna Rao随后在与Google和Broadcom联合公告中表示：「我们正在进行迄今为止最重要的算力承诺，以跟上这前所未有的增长步伐。

」4 这不是认输，而是各说各话——两家公司都在向资本市场证明自己才是长期赢家。

30GW vs 7-8GW，这数字差距比我的工资条还刺眼

商业模式：广告收入 $25亿到$ 1000亿

如果说算力是面子，那商业模式就是里子。

2026年4月9日，Reuters独家报道了OpenAI的广告收入预测：2026年预计 $25亿，2030年目标$ 1000亿6。

这意味着OpenAI的收入结构正在发生根本性转变——从API调用和订阅服务，向一个包含广告投放的混合商业模式迁移。

$1000亿的广告收入是什么概念？Google 2025年全年广告收入大约是$ 3000亿，Facebook大约是$1300亿。

OpenAI2030年的目标相当于再造一个大半个Facebook的体量——全部靠AI驱动的广告。

这个数字当然包含了巨大的预期成分，但它揭示了一个明确信号：OpenAI不再满足于做「卖铲子的公司」，它要直接下场做平台、做分发、做流量变现。

与此同时，挑战也是真实的。英国Stargate项目在2026年4月被暂停，原因是英国工业能源价格位居全球前列，加上版权法规的不确定性7。美国AI基础设施竞争激烈，监管压力从欧洲延伸到更多地区。

而GPT-image-2引发的「黑暗森林」效应，正在以另一种方式给OpenAI制造麻烦：用户对AI生成内容的信任度下降，监管机构对深度伪造的审查压力上升，整个行业都要为「图片不能信了」这个后果买单。

判断：OpenAI赢了吗？

写到这里，可以试着给一个诚实的判断了。

能力上：GPT-5.5确实拿回了SOTA地位。Google Android Bench的72.4%不是随便给的，是用Google的标准、测Google的场景，测出来的结果。

复杂任务规划的能力跃迁，至少在方向上是正确的2 2。

产品上：Codex的爆发和订阅层级的精准卡位，说明OpenAI不只会做research。

从 $20到$ 100再到 $200的梯度定价，加上$ 100档对OpenClaw流出用户的精准锁定，这套组合拳打得很聪明1 1。

竞争上：Anthropic ARR超车是事实，Claude Code在企业市场的先发优势也真实存在。

胜负远未分晓，这更像是一场马拉松的第五公里——有人领先半步，但没人知道第十公里会发生什么4。

风险上：监管压力、信任危机、算力瓶颈，每一项都是真实存在的挑战。$1000亿广告收入的野望很性感，但AI公司做广告平台的故事，还没有成功先例。

OpenAI赢了吗？至少现在，它重新站在了擂台中央。

那个我们熟悉的OpenAI——有技术爆发力、有产品嗅觉、有商业野心、也有竞争对手——确实回来了。但「回来」和「赢了」，中间还隔着一条银河系。

参考文献

3 OpenAI推出GPT-5：模型首次具备复杂任务规划能力（2026-04-17，敲码拾光/The Verge）

8 OpenAI的GPT-5.5现已上线（2026-04-23，Dataconomy CN）

2 Google更新最佳AI模型：Gemini与GPT-5.4并列第一（2026-04-09，9to5Google）

9 OpenAI推出$100/month Pro计划针对Codex用户（2026-04-09，9to5Mac）

4 ChatGPT Pro $100计划：Codex 5倍使用量对比（2026-04-10，VentureBeat）

10 OpenAI向股东备忘录猛烈批评Anthropic （2026-04-09，CNBC）

11 OpenAI预计2026年广告收入 $25亿，2030年达$ 1000亿（2026-04-09，Reuters）

7 OpenAI暂停英国Stargate项目（2026-04-09，CNBC）

12 Introducing GPT-5.5 （2026-04-23，OpenAI官方）

12 GPT-5.5 System Card Safety （2026-04-23，OpenAI官方）

参考文献

延伸入口

原文归档：tobemagic.github.io/ai-magician…
公众号：计算机魔术师

文末收口图

【产品观察 | GPT-5.5】GPT-5.5 上线：OpenAI 重回王座，这次不是烟雾弹