GPT-5.5 碾压 Opus 4.7?我用 Claude Code 干了一周后的真实判断

0 阅读7分钟

Hello,我是Niko。16年程序员老兵,专注分享 AI编程实战经验、宝藏工具资源、前沿技术动态。不玩套路,多讲干货。


上周三 OpenAI 放出 GPT-5.5,36氪的标题是"全榜第一碾压 Opus 4.7"。我刷到这条消息的第一反应不是兴奋,是怀疑。跑分碾压和实际写代码是两码事,这个道理我在 AI 编程这条路上已经被教过好几次了。

所以我花了几天时间,把 GPT-5.5 的跑分数据拆开看了一遍,在 Codex 里实际跑了几个任务,然后回到 Claude Code 继续干活。以下是我的真实判断。

发生了什么

4月23日,OpenAI 发布 GPT-5.5,五个月内的第三次重大模型发布。同时推出的还有 GPT-5.5 Pro(面向 Pro/Business/Enterprise 用户)。

几个关键数字:

  • API 定价标准版 5/5/30(每百万 input/output tokens),旗舰版 15/15/60
  • 上下文窗口 API 层面可达 1M tokens
  • OpenAI 首席研究官 Mark Chen 说在编码、研究、数据分析、文档生产和软件操控方面都有提升
  • OpenAI 正在把 ChatGPT、Codex 和浏览器功能整合成一个"超级 App"

TechCrunch 的定位很准确:这不只是一个新模型,是 OpenAI 朝"超级应用"迈出的一步。

跑分数据冷读:谁碾压谁?

"全榜第一"这个说法,得看你看的是哪张榜。

GPT-5.5 在通用基准测试上确实表现抢眼:Terminal-Bench 2.0 拿了 82.7%,BrowseComp 84.4%,CyberGym 81.8%。这些数字放在一起,标题党写"碾压"也不算太离谱。

但你要是写代码的,真正该看的是编程基准测试。这里的数据就没那么好看了:

ChatGPT Image Apr 28, 2026, 10_37_16 PM.png

在最接近"日常写代码"的 SWE-bench 测试里,Opus 4.7 领先 3.4 到 5.7 个百分点。SWE-bench Verified 测的是修复真实 GitHub issue 的能力,跟我们每天干的活最像。这个差距不算微小。

GPT-5.5 真正拉开差距的是终端操作和长上下文。Terminal-Bench 领先 13 个百分点,长上下文更是 74% 对 32.2%。

Latent Space 的分析里有个有意思的细节:Artificial Analysis 的智能指数显示 GPT-5.5(medium)和 Claude Opus 4.7(max)得分相同,但成本只有后者的四分之一。不过 Gemini 3.1 Pro Preview 在同等分数下更便宜。

所以"碾压"这个词,在编程场景下不成立。各有所长:GPT-5.5 赢在效率和长上下文,Opus 赢在复杂代码理解和修复。

实测体验:跑分之外的真实差距

跑分是一回事,实际用起来又是另一回事。我看了几份靠谱的实测报告,也自己上手试了试 Codex 里的 GPT-5.5。

ChatPRD 的评测让我印象最深。他们让 GPT-5.5 自主完成一个遗留数据迁移任务,处理数百万条记录。GPT-5.5 Pro 自己跑了 5 小时 57 分钟,中间零人工干预,还自己创建了子 agent 来做冒烟测试。200 万行数据只剩一个未解决的边界问题。

这个"自主性"是 GPT-5.5 最明显的进步。它不再是你问一句答一句的助手,更像一个你交代完任务就能去干别的事的同事。

MindStudio 的开发者评测给出了更平衡的视角:

GPT-5.5 的指令持久性有提升,以前跑到第八九步就会忘记系统提示里的约束,现在好多了。工具编排也更聪明了,15 个以上工具的大型工具库里冗余调用明显减少。但"过度自信"问题还在:错了不知道自己错了,继续往下跑。

MindStudio 做的分场景对比我觉得很实用:

场景谁更强原因
复杂多文件 bug 修复Opus 4.7代码库推理和上下文管理更好
脚手架代码生成GPT-5.5效率优势明显
测试生成打平风格不同但能力相当
代码重构Opus 4.7更擅长在重构中保留原始意图
高吞吐流水线GPT-5.5速度和 token 效率支撑规模化

这跟我自己的体感基本一致。用 Claude Code 做项目级别的改动,它对代码结构的理解确实更深,它知道改了这个文件哪些地方会受影响。GPT-5.5 在单个任务上可能更快,但需要全局视角的场景下目前还差一截。

还有个数字:GPT-5.5 的 token 效率比 Opus 4.7 高 72%,同样的任务花的 token 更少。但响应速度慢了大约 6 倍(首 token 延迟约 3 秒 vs Opus 的 0.5 秒)。做交互式编程的话,这个延迟感知很明显。

真正值得警惕的不是模型,是 Codex 超级 App

说实话,GPT-5.5 本身并没有让我紧张。模型能力的差距在缩小,但 Anthropic 这边也没闲着,Opus 4.7 在核心编程能力上依然领先。

真正让我多看几眼的是 OpenAI 在 Codex 上的动作。

ChatGPT Image Apr 28, 2026, 10_36_41 PM.png

GPT-5.5 发布的同时,Codex 平台做了一次大升级。浏览器控制和 Web 应用交互让 Codex 能直接操控浏览器测试 Web 应用。Google Sheets/Slides 集成把办公场景打通了。auto-review 模式用一个"守护者"agent 自动审查代码变更。还有 OS 级别的语音输入,支持跨应用的语音交互。

这不是在做一个更好的编程助手。这是在做一个"什么都能干"的计算机代理。TechCrunch 说得对,OpenAI 要把 ChatGPT、Codex 和浏览器揉成一个超级 App,像一个全能的数字员工。

对比一下 Claude Code 目前的策略。走的是"thin harness, fat skills"路线,一个轻量级的运行框架,通过 Skill、Hook、Subagent 来扩展能力。这条路更灵活、更开放,但在"开箱即用"的程度上不如 OpenAI 的一站式打法。

两条路线各有赌注。OpenAI 赌的是"把什么都包进来,用户不用折腾"。Anthropic 赌的是"给你最好的引擎,生态让社区来建"。

短期看,已经在用 Claude Code 的开发者,Opus 4.7 + Skill 生态的组合在复杂项目上的体验仍然更好。但如果 OpenAI 的超级 App 路线跑通了,那些还没形成工具偏好的新用户很可能会被"一站式"吸引过去。

我的判断

回到最初的问题:Claude Code 用户该不该慌?

三个字:不用慌,但要看。

不用慌,是因为 GPT-5.5 在编程能力上并没有实现"碾压"。SWE-bench 这类最贴近真实编程的测试里 Opus 依然领先。日常 AI 编程中最重要的能力,理解代码结构、跨文件推理、在长对话中保持上下文,恰好是 Claude Code 的强项。MindStudio 的评价我很认同:GPT-5.5 完成任务更快,但 Opus 4.7 产出的代码"更仔细、带注释、更容易 review"。做项目不是跑百米,稳比快重要。

该看,是因为 OpenAI 五个月发了三个大模型,这种节奏本身就是信号,他们在用速度换市场。Codex 的超级 App 化是更大的棋,如果他们真的做到了"一个工具解决所有办公+编程需求",对整个 AI 编程工具市场的影响会很大。

还有定价。GPT-5.5 标准版 5/5/30 很有攻击性,token 效率又高 72%。对于跑大量自动化任务的团队来说,这个成本优势不能忽视。

顺便提一下

  • NVIDIA 透露有超过 10000 名员工通过 Codex 早期使用了 GPT-5.5。大厂内部工具链的选择往往是风向标,值得关注后续反馈。

  • Artificial Analysis 的数据显示 Gemini 3.1 Pro Preview 在同等智能指数下比 GPT-5.5 和 Opus 4.7 都便宜,而且有 1M 原生上下文。三方混战的局面正在形成。

一句话总结

如果你只记住一件事:GPT-5.5 没有碾压 Opus 4.7,但 OpenAI 用"超级 App + 激进定价 + 高频迭代"打出的组合拳,比任何单个模型的跑分都更值得关注。


Niko-白色版.png