【新智元导读】就在刚刚,奥特曼深夜掷出 GPT-5.5!全方位暴击 Claude Opus 4.7,重新夺回地表最强王座。从写代码到搞科研,AI 独立接管电脑的时代真的来了!
硅谷今夜未眠!
就在刚刚,GPT-5.5 震撼登场——OpenAI 迄今最强、最全能的新一代旗舰模型。
它是一种全新级别的智能,彻底进化为 Agent 时代的「原生大脑」。
没错,就是那个万众期待的「土豆」(Spud),终于在今天杀出来了。
最值得看的是,GPT-5.5 在各项基准测试中:全榜第一!
不论在编程、推理、数学,还是智能体任务上,Claude Opus 4.7、Gemini 3.1 Pro 完全被 GPT-5.5 踩在了脚下。
相较于上一代,GPT-5.5 Thinking 堪称「降维打击」,拉开了代际差距。
在 AAI 测试中,相同输出 token 下,GPT-5.5 智能指数冠绝全球;另在 ARC-AGI-2 上,同样刷新了 SOTA。
奥特曼忍不住大加赞赏,「GPT-5.5 既聪明又快速」。
每个 token 的速度与 GPT-5.4 一样快,且每个任务使用 token 量显著降低。
它可以几乎做到心领神会,知道自己该做什么!
总裁 Greg 激动称,「这朝着一种全新的计算机工作方式迈出了一步」。
今天起,GPT-5.5 在 ChatGPT、Codex 中正式上线。
编程新王登场
Opus 4.7 跌落神坛
先看最核心的编程领域,GPT-5.5 可谓是打了一场漂亮的翻身仗!
用 OpenAI 的话来说,它是迄今为止最强大的智能体编程模型。
Terminal-Bench 2.0 测试考的是全链路 Agent 工程实力。
题目会给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。
在这里,GPT-5.5 拿下 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 只有 69.4%。13 个百分点的差距,碾压级别。
OpenAI 内部的 Expert-SWE 评测,专门测那些人类预估中位完成时间 20 小时的长周期编程任务,GPT-5.5 拿到 73.1%,同样高于 GPT-5.4 的 68.5%。
在业界公认最能反映真实 GitHub 问题解决能力的评测 SWE-Bench Pro 中,GPT-5.5 得分 58.6%,略逊色于 Claude Opus 4.7(64.3%)。
不过,OpenAI 在这个数据旁边标了一个星号,写着「Anthropic 报告称在部分问题子集上存在过拟合(记忆)迹象」。
换句话说就是,Opus 4.7 虽然考试成绩好,但我怀疑你背过答案。
Codex 研究员直言:SWE-Bench 早已不能衡量顶尖编程能力了
最关键是,在这三项的评估中,GPT-5.5 使用了更少的 token,但仍全面赶超 GPT-5.4。
这一能力在 Codex 中,体现得更为明显。
它可以完成「端到端」的编程任务,从实现、重构到调试、测试和验证等流程。
举个栗子,让 GPT-5.5 做一个阿尔忒弥斯 II 太空任务可视化应用。
首先把一张任务的截图扔给 GPT-5.5,然后要求用 WebGL 和 Vite 实现一个可交互的 3D 轨道模拟器,轨迹数据必须来自 NASA/JPL Horizons 的真实矢量数据,并且还要有逼真的轨道力学。
只见,GPT-5.5 从零搭完,鼠标拖拽能转,猎户座飞船、月球、太阳的相对位置都对得上。
早期测试的大佬直言, GPT‑5.5 拥有更强的理解系统形态的能力。
它更能判断问题出在哪,修复该加在哪,以及代码库中还有哪些地方会受到牵连。
85% OpenAI 员工用疯
这才是真正干活的 AI
编程之外,GPT-5.5 在「知识型工作」上的数据同样亮眼。
毕竟,OpenAI 将其称为,「一种面向真实工作的全新智能」。
它能更快地理解你想要做什么,并在不同工具之间切换,直到任务完成。
GDPval,评估 AI 在 44 个职业中完成规范知识工作的水平,GPT-5.5 拿到 84.9%,Opus 4.7 是 80.3%,Gemini 3.1 Pro 只有 67.3%。
OSWorld-Verified,测试模型能否独立操作真实电脑环境,GPT-5.5 得分 78.7%,和 Opus 4.7 的 78.0% 几乎打平。
Tau2-bench,测试模型能否在复杂客服工作流中处理多轮对话、查询系统、执行操作。,GPT-5.5 在没有微调提示词的情况下达到 98.0%。
有意思的是 OpenAI 自己怎么用的。据官方博客披露,公司内部超过 85% 的员工每周跨部门使用 Codex。
公关部门用 GPT-5.5 分析了六个月的演讲邀约数据,搭建了评分和风险框架,让低风险请求自动走 Slack AI 智能体处理。
财务部门审查了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成。
市场团队实现了每周业务报告自动生成,每周省 5 到 10 个小时。
如今,在 Codex 中,通过 GPT-5.5 可与 Web 应用直接交互,测试流程、点击页面、截取屏幕,并根据所见内容不断迭代,直到完成任务。
如下是,测试入职流程的一个例子。
Codex 还可以生成更高质量的电子表格、PPT 和文档,如下是一个财务建模的 demo。
应用内新增的文件查看器,可加快审阅、修订和迭代速度,让文件更快准备好分享。
在计算机使用上,Codex 操作电脑能力更强了。
无论是识别屏幕内容,还是点击、打字、导航,甚至是跨工具流转上下文信息,它都能轻松搞定。
OpenAI 研究员 Noam Brown 直言,有了 GPT-5.5,自己也能像专业人士一样编写 CUDA 内核,运行研究实验。
颠覆科研
证明「拉姆齐数」定理
除了这些,GPT-5.5 还协助发现了一个关于拉姆齐数的新证明,并在 Lean 语言中得到了验证。
拉姆齐数是组合数学的核心研究对象,通俗地说就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见。
论文地址:cdn.openai.com/pdf/6dc7175…
这个领域的研究成果极其罕见,技术难度极高。GPT-5.5 发现了一个关于非对角拉姆齐数长期渐近事实的证明。
不是写代码,不是做解释,是提出了一个有价值的数学论证。
GeneBench 上,GPT-5.5 得分 25.0%,GPT-5.4 是 19.0%。这个评测专门测多阶段科学数据分析,要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。
BixBench,基于真实生物信息学设计的评测,GPT-5.5 在所有已公开分数的模型中排名第一,80.5%。
FrontierMath Tier 4,由陶哲轩等顶级数学家策划的前沿数学题库中最难一档,题目涉及代数几何、数论等方向,难度接近未发表研究。
GPT-5.5 得分 35.4%,GPT-5.4 是 27.1%,Opus 4.7 只有 22.9%。差距超过 12 个百分点。
对比一下 Tier 1-3 的差距只有 8 个百分点(51.7% vs 43.8%),说明越到数学前沿,GPT-5.5 的优势越悬殊。
Jackson 基因医学实验室的免疫学教授 Derya Unutmaz 用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的表达数据集。
模型出具了一份详尽的研究报告,不仅总结了发现,还深挖出关键问题和洞察。相比之下,如果这活儿让人类团队来干,得花上好几个月。
波兹南 · 密茨凯维奇大学数学助教 Bartosz Naskręcki 在 Codex 中,仅用 11 分钟就从一个单一提示词构建了一个代数几何应用,可视化了二次曲面的交集,并将生成的曲线转换为 Weierstrass 模型。
从编程到知识工作再到科研,升番到这里,结论摆在眼前。
GPT-5.5 不是又一次「小版本迭代」,它是一次全新基座模型带来的整体性跃升。
全方位击败 Opus 4.7,就看一张图
总言之,GPT-5.5 的诞生,堪称迎来了脱胎换骨的蜕变。对战 Opus 4.7,一张图就够了。
另在 Vending-Bench 中,GPT-5.5 同样暴击 Opus 4.7。
Opus 4.7 的表现跟 4.6 差不多:老是对供应商撒谎,还在退款上坑顾客。相比之下,GPT-5.5 的手段就很正派,而且照样赢下了比赛。
奥特曼还玩个梗,「千万别转,千万别转,千万别转.... 哎,算了吧,生活终究是在模仿艺术」。
定价翻倍
更强,但也更贵
说完实力,必须说钱。
GPT-5.5 的 API 定价,每百万输入 Token 5 美元,每百万输出 Token 30 美元。
GPT-5.4 是多少?2.50 美元和 15 美元。
整整翻了一倍。
GPT-5.5 Pro 更夸张,输入 30 美元,输出 180 美元。
对比一下 Opus 4.7,输入 5 美元,输出 25 美元。GPT-5.5 的输入价格和 Opus 4.7 持平,但输出贵了 20%。
OpenAI 给出的解释是 token 效率提升。同样的 Codex 任务,GPT-5.5 用的 token 比 GPT-5.4 明显更少。
更强,而且更高效。
但算一笔账就知道,如果一个团队每月在 GPT-5.4 上花 10 万美元,切换到 GPT-5.5 后即使 token 用量减少 30%,月账单依然会涨到 14 万美元左右。
换句话说,GPT-5.5 是一个「你为更强的智能付更多的钱」的溢价产品。相比之下,GPT-5.4 大概率会继续作为性价比之选存在。
OpenClaw 已接入最强 GPT-5.5
8 天,一个时代的缩影
回头看这 8 天发生了什么。
4 月 16 日,Anthropic 用 Opus 4.7 在 SWE-Bench Pro 上发起突袭,从 GPT-5.4 手中夺走编程王座。
4 月 24 日,GPT-5.5 正式发布。Terminal-Bench 碾压,定价翻倍,科研炸裂。
2026 年的 AI 竞赛,已经不是「谁的模型更强」这一个维度的较量了。
在 GPT-5.5 的叙事里,OpenAI 反复强调的是「探索全新的电脑办公方式」,一个能自主规划任务、调用多种工具、在浏览器和本地软件之间来回切换的通用 Agent。
跑分是前菜,Agent 化办公才是主战场。谁先定义「AI 怎么替人干活」,谁就定义下一代电脑使用界面。
8 天一个来回。这个节奏,只会更快。
参考资料: