GPT-5.5横扫46项测试,但有个领域Claude仍领先

0 阅读7分钟

GPT-5.5横扫46项测试,但有个领域Claude仍领先

我的判断:GPT-5.5是目前最强的通用AI模型,但别急着All in——在"解决真实代码Issue"这个最接近实际工作的场景里,Claude仍然是更好的选择。

2026年4月,OpenAI发布GPT-5.5。

46项基准测试,6/9项核心指标领先,多项拉开代际差距。但我在逐项拆解数据后发现:GPT-5.5的领先有边界,而这个边界恰好是开发者最该关注的。


一、核心指标总览:6/9项领先

GPT-5.5在9项核心指标中,有6项取得领先。

关键数据速览

🔵 Terminal-Bench 2.0(编程) GPT-5.5 82.7% > GPT-5.4 75.1% > Claude 69.4% > Gemini 68.5%

🔵 GDPval(知识工作) GPT-5.5 84.9% > GPT-5.4 83.0% > Claude 80.3% > Gemini 67.3%

🔵 FrontierMath T4(数学推理) GPT-5.5 35.4% > GPT-5.4 27.1% > Claude 22.9% > Gemini 16.7%

🔴 BrowseComp(网页浏览) Gemini 85.9% > GPT-5.5 84.4% > GPT-5.4 82.7% > Claude 79.3%

几个关键数字

  • +7.6%:Terminal-Bench vs GPT-5.4(编程能力跃升)

  • +8.3%:FrontierMath T4 vs GPT-5.4(数学推理突破)

  • +36%:Graphwalks BFS 1mil 跃升(长上下文推理质变)

定价:输入**百万,输出30**/百万token。


二、编程能力:OpenAI迄今最强编程模型

GPT-5.5是OpenAI迄今最强的编程模型。

在Terminal-Bench 2.0上达到**82.7%**的SOTA准确率。在Expert-SWE(中位预估人类完成时间20小时)上也超越GPT-5.4。

编程能力对比

🔵 Terminal-Bench 2.0(命令行工作流) GPT-5.5 82.7% > GPT-5.4 75.1% > Claude 69.4% > Gemini 68.5%

🔵 Expert-SWE(复杂任务,20小时级) GPT-5.5 73.1% > GPT-5.4 68.5%

🔴 SWE-Bench Pro(真实GitHub Issue) Claude 64.3% > GPT-5.5 58.6% > GPT-5.4 57.7% > Gemini 54.2%

  • Anthropic指出SWE-Bench Pro存在memorization问题

一个细节值得注意:在SWE-Bench Pro上,Claude Opus 4.7仍以64.3%领先。但Anthropic自己都承认这个基准存在memorization问题——模型可能记住了训练数据中的解题模式,而非真正理解代码。

一位获得早期模型访问权限的NVIDIA工程师说:

"Losing access to GPT-5.5 feels like I've had a limb amputated."

Cursor CEO Michael Truell的评价更具体:

GPT-5.5比GPT-5.4更聪明、更持久,工具使用更可靠。它能持续工作更长时间而不提前停止——这对用户委托的复杂、长时间运行的工作至关重要。

"更持久"这个评价很关键。 编程不只是写代码,更是持续调试、迭代、修复的长链条任务。模型能否"不放弃",直接决定了它在真实工程场景中的可用性。


三、专业能力:44种职业的知识工作评测

在涵盖44种职业的知识工作评测GDPval中,GPT-5.5以84.9%的胜率或平局领先。

这不是"通用知识"测试,而是覆盖软件工程、金融、传播、营销、数据科学和产品管理等具体职业场景的实战评测。

OpenAI内部超过85%的员工每周使用Codex——这不是实验性使用,而是日常工作流的一部分。

GDPval的领先意味着什么?

AI正在从"辅助工具"变成"知识工作者的默认副驾驶"。 当模型在44种职业场景中都能达到85%的胜率/平局,它已经不是"偶尔帮个忙"的角色,而是可以承担实质性工作任务的协作者。


四、长上下文推理:36%的跃升

Graphwalks BFS 1mil测试中,GPT-5.5实现了36%的跃升。

这个数字背后是长上下文推理能力的质变。100万token的上下文窗口,不再是"能读这么多",而是"能在这么长的上下文中进行有效推理"。

这对哪些场景影响最大?

  • 代码库分析:一次性理解整个项目的架构和依赖关系

  • 法律文档审查:在数百页合同中定位关键条款和风险点

  • 学术论文综述:跨多篇论文提取和整合观点

  • 复杂报告生成:基于大量数据源生成结构化分析

长上下文推理是AI从"对话助手"升级为"研究伙伴"的关键能力。36%的跃升意味着这个升级正在加速。


五、数学推理:FrontierMath的代际差距

FrontierMath是当前最难的数学基准之一,分为T1-3(基础)和T4(前沿)两个级别。

GPT-5.5的表现

🔵 T1-3级别(基础) GPT-5.5 51.7% > GPT-5.4 47.6% > Claude 43.8% > Gemini 36.9% 提升 +4.1%

🔵 T4级别(前沿,最难) GPT-5.5 35.4% > GPT-5.4 27.1% > Claude 22.9% > Gemini 16.7% 提升 +8.3%

T4级别的8.3%提升尤为关键。这是"解决真正困难的数学问题"的能力,而非"做对更多简单题"。

对比竞品:Claude Opus 4.7在T4上仅22.9%,Gemini 3.1 Pro仅16.7%。GPT-5.5的35.4%几乎是Gemini的两倍。

数学推理是AI能力的"硬核指标"。它不直接产生商业价值,但决定了模型在科研、金融建模、复杂系统分析等高端场景中的天花板。


六、定价策略:30的市场信号

GPT-5.5的定价:输入百万,输出30/百万token。

这个定价传递了几个信号:

  1. 性能溢价合理化:比GPT-5.4更强,但价格在同一量级,降低了迁移门槛

  2. PRO版本的存在:GPT-5.5 PRO在BrowseComp上达到90.1%,FrontierMath T4达到39.6%——OpenAI正在拉开"标准版"和"专业版"的能力差距

  3. 竞争压力可见:Claude和Gemini在部分指标上仍有竞争力,OpenAI需要在价格上保持攻势


七、竞争格局:谁在追赶?

从46项基准的整体分布看:

GPT-5.5的优势领域

  • 编程(Terminal-Bench 82.7%)

  • 知识工作(GDPval 84.9%)

  • 数学推理(FrontierMath T4 35.4%)

  • 长上下文推理(Graphwalks +36%)

竞品的反击点

  • SWE-Bench Pro:Claude Opus 4.7以64.3%领先

  • BrowseComp:Gemini 3.1 Pro以85.9%领先

这两个领先点值得注意。SWE-Bench Pro是"解决真实GitHub Issue"的能力,Claude在这个更接近"真实软件工程"的测试上仍有优势。BrowseComp是"网页浏览和信息提取",Gemini在这个领域展现了Google搜索基因的底蕴。

但整体格局已经很清晰:GPT-5.5在绝大多数指标上建立了领先,部分领域是代际差距。


八、对从业者的启示

GPT-5.5的发布,对不同角色意味着什么?

对开发者

  • Terminal-Bench 82.7%意味着AI编程助手正在从"代码补全"升级到"自主完成复杂任务"

  • 但SWE-Bench Pro的领先者是Claude——如果你的工作流更依赖"解决真实Issue",仍需评估哪个模型更适合

对知识工作者

  • GDPval 84.9%意味着AI在44种职业场景中已经达到"胜任"水平

  • 85%的OpenAI员工每周使用Codex——这不是"未来趋势",而是"现在进行时"

对决策者

  • 30的定价让大规模部署变得可行

  • PRO版本的存在意味着"能力分层"——关键任务可能需要投资PRO版本

对研究者

  • FrontierMath T4的35.4%仍不算高——数学推理的天花板还远

  • 长上下文推理的36%跃升是最值得关注的能力突破


结语:能力边界的真实位移

GPT-5.5不是一次渐进式升级。

在46项基准测试中,它在编程、知识工作、数学推理、长上下文推理等多个维度建立了领先,部分领域是代际差距。

但"基准测试领先"和"真实世界价值"之间仍有距离。SWE-Bench Pro上Claude的领先、BrowseComp上Gemini的领先,都提醒我们:AI能力的评估是多维度的,没有单一模型能在所有场景中称王。

GPT-5.5的意义在于:它重新定义了"能力边界"的基准线。竞品必须追赶这个新基准,而整个行业的能力天花板也随之抬升。

对从业者而言,现在的问题不是"AI能不能做",而是"怎么让它做得更好"。


你怎么看?

GPT-5.5和Claude,你会选哪个?评论区聊聊👇

如果这篇文章对你有帮助,点个「在看」让更多人看到

想持续跟踪AI行业深度分析,关注「智元记」


数据来源:OpenAI官方发布(openai.com)、各基准测试官方排行榜

数据说明

  • GPT系列评测使用reasoning effort设置为high的研究环境

  • Expert-SWE为OpenAI内部评测,中位预估人类完成时间20小时

  • SWE-Bench Pro存在memorization争议(Anthropic指出)