
黑暗森林:当整个互联网的图片都不能信了
GPT-image-2上线那周,Twitter/X上开始大量出现以假乱真的「新闻图」。政要合影、产品发布会、科技公司签约现场——全是AI生成的。
最初有人还当真了,转发、评论、分析,一通操作猛如虎,评论区里才有人幽幽说了一句:「兄弟,这是GPT-image-2画的。」
这种状态,业界给了它一个名字——「黑暗森林」。不是刘慈欣那个社会伦理学版本,而是字面意思:你看到的任何一张图片,都可能是假的;你听到的任何一段录音,都可能是合成的。
互联网的内容信任体系,在这一刻出现了一道裂缝。

等等,这张图是AI画的还是真实拍摄的?
而GPT-5.5的发布,恰好踩在这个情绪高点上。
用户对OpenAI产品的关注度本就已经被GPT-image-2拉满,此刻GPT-5.5的出现,更像是一场精心设计的「信心反攻」——用更强的技术能力,把之前由自己制造的混乱,用更大的动静来掩盖。

来源:9to5google.com
GPT-5.5:benchmark上的王座回归
72.4%:Google亲自背书的SOTA
2026年4月9日——注意这个时间点,比GPT-5.5正式发布早了整整两周——Google悄无声息地更新了Android Bench排名。
这个榜单是Google官方维护的AI编码能力测试,专门衡量各大模型在Android开发场景下的表现,测试内容包括Jetpack Compose UI、协程与Flow异步编程、Room持久化、Hilt依赖注入等硬核项目。
结果出来,炸了:GPT-5.4以72.4%的得分与Gemini 3.1 Pro Preview并列第一,GPT-5.3-Codex以67.7%排名第三,超过了Claude Opus 4.6的66.6%1。
这里有一个容易被忽略的细节——这不是随便哪个野榜,而是Google自己的benchmark,用Google的标准测Google的场景,结果OpenAI的模型和Gemini并列第一。

你开心就好,我先不展开了
这意味着什么?意味着在Android开发这个具体场景里,GPT-5.4已经和Google亲儿子站在同一水平线上了。

Google:这分数不是我给GPT打的,是你们自己考的
当然,benchmark不等于现实表现。Google在更新说明里也留了一句话:「这些结果不应被视为绝对事实,现实往往与受控测试不同。」2 这是Google的体面,但工程师们已经在用脚投票了。
复杂任务规划:不再只是「生成文本」
GPT-5.5真正值得说的突破,是官方在发布博客里用的那个词——「复杂任务规划」3。
用一个具体例子来理解这意味着什么。以前你让GPT-4写一段代码,它会给你一段代码;你让它总结一篇文章,它会给你一段摘要。这些都是「单步」或「短序列」任务,你给输入,它给输出,中间的决策过程由你负责。
但现实世界的问题是复杂的、多步骤的、充满不确定性的。比如你让它规划一个从旧金山到东京的七日文化深度游,要考虑航班、酒店、每日主题行程、餐厅预订,还得预留天气变化的备用方案。
GPT-4会生成一份看起来挺合理的清单,但各部分之间可能缺乏连贯性,也无法动态权衡约束条件。
GPT-5.5展示的新能力,是能够将这个宏大目标自动分解成一系列逻辑严密、前后关联的子任务,并预估执行过程中可能出现的分支和风险1。
OpenAI在官方描述里把GPT-5形容为一个「具备街头智慧和大局观的实战专家」,而不是一个「学识渊博但有时纸上谈兵的学者」。
这听起来很性感,但「像人一样规划」这个命题离真正落地还有多远,目前没有人敢打包票。不过,对于需要把AI嵌入核心业务流程的企业来说,这个方向的每一步进展,都值得认真看。

来源:9to5mac.com
产品力回归:那个熟悉的OpenAI回来了
Codex:三个月5倍增长的爆发
如果GPT-5.5是技术秀场,那Codex才是这场发布里真正的商业杀招。
截至2026年4月,OpenAI披露了一个数字:Codex拥有超过300万周活用户4。三个月增长5倍,70%月环比增长。这个增速是什么概念?
GitHub Copilot达到这个量级用了将近两年,Codex只用了不到一个季度。
Codex是OpenAI在2026年2月推出的Mac原生应用,主打「vibe coding」——用自然语言驱动整个编程工作流。
它不是Copilot那种嵌入式辅助工具,而是一个独立环境,你可以直接让它操作本地代码库、跑测试、写文档,甚至帮你review代码。它既能用本地消息处理,也支持云端任务执行1。
OpenAI给它的定位非常明确:专业开发者的主力工具,而不是新手入门玩具。这从配套的订阅策略里能看得更清楚。
订阅层级:一场对Anthropic的反向攻势
2026年4月9日,OpenAI宣布推出200/月的Pro并列存在44。
20 Plus档的Codex使用量,$200档则是20倍4。
为什么在这个时间点推出$100档?
答案藏在两周前——2026年4月4日,Anthropic正式封锁了第三方agentic AI harness(包括当时极受欢迎的OpenClaw)使用Claude订阅来获取模型能力1。
用户必须通过Anthropic官方API或额外使用额度来付费,不能再用$20/月的Claude订阅「薅」第三方工具了。
这个政策的本质是Anthropic不想让订阅制成为第三方agent工具的「无限自助餐」——算力消耗太大,用户付的20美元根本兜不住。
但对于已经重度依赖OpenClaw的开发者来说,这等于突然要换工具链。
OpenAI的反应速度非常快。OpenClaw的创始人Peter Steinberger在2026年2月已经被OpenAI挖走,负责个人agent战略1。
OpenAI一边把人收了,一边在两周后推出$100 Pro档——精准锁定被Anthropic「驱赶」出来的OpenClaw用户群体。
「Codex没有Anthropic那种限制,」Steinberger入职后公开表示。这句话的讽刺意味,大概能在Anthropic的法务部门引发一阵骚动。

Anthropic:我封的是订阅滥用,你OpenAI直接把人挖走了?
竞争格局:AI军备竞赛进入新阶段
算力对决:30GW vs 7-8GW
Anthropic最近其实过得不差。2026年4月,它刚刚披露年化收入(ARR)已突破240-250亿的ARR44。
企业市场对Claude Code和Claude Cowork的采用速度,让Anthropic在商业化层面实现了真正的超车。
OpenAI不甘示弱,直接把内部备忘录送到了投资者手里4。这份备忘录的核心数据是:OpenAI计划2030年达到30吉瓦(GW)算力,而预计Anthropic在2027年底只能达到7-8GW。
OpenAI在备忘录里写了一句很直接的话:「即使取这个范围的上限,我们的坡度也在加速拓宽。
」(Even at the high end of that range, our ramp is materially ahead and widening.)5
这话翻译成人话就是:「你跑得快,但我们跑得更快,而且我们的加速度比你大。」
当然,算力不等于智能,更不等于市场份额。
Anthropic CFO Krishna Rao随后在与Google和Broadcom联合公告中表示:「我们正在进行迄今为止最重要的算力承诺,以跟上这前所未有的增长步伐。
」4 这不是认输,而是各说各话——两家公司都在向资本市场证明自己才是长期赢家。

30GW vs 7-8GW,这数字差距比我的工资条还刺眼
商业模式:广告收入1000亿
如果说算力是面子,那商业模式就是里子。
2026年4月9日,Reuters独家报道了OpenAI的广告收入预测:2026年预计1000亿6。
这意味着OpenAI的收入结构正在发生根本性转变——从API调用和订阅服务,向一个包含广告投放的混合商业模式迁移。
3000亿,Facebook大约是$1300亿。
OpenAI2030年的目标相当于再造一个大半个Facebook的体量——全部靠AI驱动的广告。
这个数字当然包含了巨大的预期成分,但它揭示了一个明确信号:OpenAI不再满足于做「卖铲子的公司」,它要直接下场做平台、做分发、做流量变现。
与此同时,挑战也是真实的。英国Stargate项目在2026年4月被暂停,原因是英国工业能源价格位居全球前列,加上版权法规的不确定性7。美国AI基础设施竞争激烈,监管压力从欧洲延伸到更多地区。
而GPT-image-2引发的「黑暗森林」效应,正在以另一种方式给OpenAI制造麻烦:用户对AI生成内容的信任度下降,监管机构对深度伪造的审查压力上升,整个行业都要为「图片不能信了」这个后果买单。
判断:OpenAI赢了吗?
写到这里,可以试着给一个诚实的判断了。
能力上:GPT-5.5确实拿回了SOTA地位。Google Android Bench的72.4%不是随便给的,是用Google的标准、测Google的场景,测出来的结果。
产品上:Codex的爆发和订阅层级的精准卡位,说明OpenAI不只会做research。
从100再到100档对OpenClaw流出用户的精准锁定,这套组合拳打得很聪明11。
竞争上:Anthropic ARR超车是事实,Claude Code在企业市场的先发优势也真实存在。
胜负远未分晓,这更像是一场马拉松的第五公里——有人领先半步,但没人知道第十公里会发生什么4。
风险上:监管压力、信任危机、算力瓶颈,每一项都是真实存在的挑战。$1000亿广告收入的野望很性感,但AI公司做广告平台的故事,还没有成功先例。
OpenAI赢了吗?至少现在,它重新站在了擂台中央。
那个我们熟悉的OpenAI——有技术爆发力、有产品嗅觉、有商业野心、也有竞争对手——确实回来了。但「回来」和「赢了」,中间还隔着一条银河系。
参考文献
3 OpenAI推出GPT-5:模型首次具备复杂任务规划能力 (2026-04-17,敲码拾光/The Verge)
8 OpenAI的GPT-5.5现已上线 (2026-04-23,Dataconomy CN)
2 Google更新最佳AI模型:Gemini与GPT-5.4并列第一 (2026-04-09,9to5Google)
9 OpenAI推出$100/month Pro计划针对Codex用户 (2026-04-09,9to5Mac)
4 ChatGPT Pro $100计划:Codex 5倍使用量对比 (2026-04-10,VentureBeat)
10 OpenAI向股东备忘录猛烈批评Anthropic (2026-04-09,CNBC)
11 OpenAI预计2026年广告收入1000亿 (2026-04-09,Reuters)
7 OpenAI暂停英国Stargate项目 (2026-04-09,CNBC)
12 Introducing GPT-5.5 (2026-04-23,OpenAI官方)
12 GPT-5.5 System Card Safety (2026-04-23,OpenAI官方)
参考文献
-
GPT drafts, Claude critiques: Microsoft blends rival AI models in new Copilot upgrade
-
Google updates best AI models for coding Android apps, Gemini & GPT 5.4 at the top
-
OpenAI introduces ChatGPT Pro $100 tier with 5X usage limits for Codex compared to Plus
-
OpenAI halts UK stargate project amid regulatory and energy price concerns
-
OpenAI introduces $100/month Pro plan aimed at Codex users, here’s what it includes
-
OpenAI slams Anthropic in memo to shareholders as its leading AI rival gains momentum
延伸入口
- 原文归档:tobemagic.github.io/ai-magician…
- 公众号:计算机魔术师
