GPT-5.5 发布:Agent 原生大脑、Token 成本降至 1/35、AI 协助证明拉姆齐数

0 阅读10分钟

2026年4月24日凌晨,OpenAI 正式发布 GPT-5.5——这次发布面向「Agent 时代」的全新基座模型跃升。从编程到科研,从知识工作到计算机操控,GPT-5.5 都有非常优秀的表现。但与此同时,翻倍的 API 价格和仍未解决的幻觉问题,也引来不少争议。

本文将带你逐层拆解 GPT-5.5 的每一个核心突破,看清数字背后的真实含义。

从我个人来看,国内的各大厂商似乎更加强了工程上的智能体联合推进,国外的各大厂商则是兼顾(也可能国内产品的拼智力拼不过吧)。


一、发布背景:8天攻防战,OpenAI 的紧急回应

2026 年的 AI 竞赛已经进入白热化。4 月 16 日,Anthropic 用 Claude Opus 4.7 在 SWE-Bench Pro 上突袭夺走编程王座;Google 的 Gemini 3.1 Pro 也在部分视觉推理上表现强势。OpenAI 感受到了前所未有的压力。

仅仅 8 天后,GPT-5.5 正式登场。

timeline
    title 2026年4月 AI 模型攻防时间线
    4月16日 : Anthropic 发布 Claude Opus 4.7<br/>SWE-Bench Pro 夺冠
    4月22日 : GPT-5.5 意外现身 Codex CLI 终端<br/>被 Reddit 用户曝光
    4月23日 : OpenAI 发布 ChatGPT Images 2.0<br/>同日推出 GPT-5.5
    4月24日 : GPT-5.5 正式向付费用户开放

OpenAI 总裁 Greg Brockman 强调,GPT-5.5 的核心突破在于——

用户无需精心管理每一步,只需把一个杂乱、涉及多个环节的任务交给 GPT-5.5,它就能自主规划、调用工具、检查成果、应对模糊情况,并持续推进。

这不是一句宣传语。从基准测试到真实工作流数据,GPT-5.5 确实在「一次把事情做完」这件事上,迈出了质的飞跃。


二、核心定位:Agent 时代的「原生大脑」

2.1 从「对话工具」到「自主执行者」

GPT-5.5 的官方定位是 「面向实际工作和智能体的新型智能」。和今年很多厂商的发布方向一样,直接面向 Agent 场景

flowchart LR
    A[模糊指令] --> B[自主规划]
    B --> C[调用工具]
    C --> D[检查结果]
    D --> E{是否完成?}
    E -->|否| F[自我修正]
    F --> C
    E -->|是| G[任务完成]
    
    style A fill:#ff9800,color:#fff
    style G fill:#4caf50,color:#fff
    style B fill:#2196f3,color:#fff
    style C fill:#2196f3,color:#fff
    style D fill:#2196f3,color:#fff
    style F fill:#f44336,color:#fff

2.2 四大核心能力跃升

能力维度GPT-5.4GPT-5.5跃升本质
Agentic Coding需要逐步指导自主规划、端到端交付从「编码助手」到「自主工程师」
计算机使用基础点击操作跨应用流转、上下文保持从「遥控器」到「虚拟员工」
知识工作生成文档/表格理解意图、跨工具整合从「模板填充」到「业务分析师」
科学研究辅助分析发现新数学证明从「工具」到「研究合作者」

三、编程能力:新王登基,但王冠有裂缝

3.1 Terminal-Bench 2.0:碾压级胜利

Terminal-Bench 2.0 测试的是 全链路 Agent 工程实力——给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

模型Terminal-Bench 2.0
GPT-5.582.7%
GPT-5.475.1%
Claude Opus 4.769.4%
Gemini 3.1 Pro68.5%

⚡ GPT-5.5 比 Claude Opus 4.7 高出 13.3 个百分点,完全碾压。

3.2 Expert-SWE:长周期任务的突破

OpenAI 内部的 Expert-SWE 评测,专门测试那些 人类预估中位完成时间 20 小时 的长周期编程任务。GPT-5.5 拿到 73.1%,GPT-5.4 为 68.5%。

Cursor CEO Michael Truell 给出实测反馈:

"GPT-5.5 比 GPT-5.4 明显更聪明、更持续,编程性能更强,工具使用更可靠。对于复杂、长时间运行的任务,它能坚持到底不中途停下。"

3.3 SWE-Bench Pro:唯一的短板

但在业界公认最能反映真实 GitHub 问题解决能力的 SWE-Bench Pro 上:

模型SWE-Bench Pro
Claude Opus 4.764.3%
GPT-5.558.6%
GPT-5.457.7%
Gemini 3.1 Pro54.2%

GPT-5.5 仍然落后 Opus 4.7 5.7 个百分点

不过 OpenAI 在这个数据旁边标了一个星号,注明:

Anthropic 报告称在部分问题子集上存在过拟合(记忆)迹象。

Codex 研究员直言:SWE-Bench 已不能衡量顶尖编程能力了。 这个 benchmark 测的是单次 patch 提交,而 GPT-5.5 的真正优势在于 端到端的工程交付——从实现、重构到调试、测试和验证,一气呵成。

3.4 完整 Benchmark 对比一览

评测项GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE(内部)73.1%68.5%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
SWE-Bench Pro(公开)58.6%57.7%64.3%54.2%

解读:前五项 GPT-5.5 全面领先,唯一落后的 SWE-Bench Pro 恰恰是 OpenAI 二月份还在力推的「最不容易刷榜」的 benchmark。


四、智能体能力:AI 独立接管电脑的时代

4.1 OSWorld:真实电脑操控

OSWorld-Verified 测试模型能否 独立操控真实电脑环境——点击、输入、在不同应用间切换。GPT-5.5 得分 78.7%,与 Claude Opus 4.7 的 78.0% 基本持平。

但更重要的是实际场景中的表现。在 Codex 中,GPT-5.5 可以:

  • 直接与 Web 应用交互:测试流程、点击页面、截取屏幕
  • 生成高质量文档:电子表格、PPT、财务模型
  • 跨工具流转:在浏览器和本地软件之间无缝切换

4.2 Tau2-bench:复杂客服工作流

在不做 prompt 调整的情况下,GPT-5.5 在 Tau2-bench Telecom 上直接拿到 98.0%,GPT-5.4 是 92.8%。

💡 这意味着在没有针对性优化的情况下,就能处理多轮对话、查询系统、执行操作——几乎完美的客服自动化。(www.ithome.com/0/942/841.h…)

4.3 OpenAI 内部真实使用数据

部门使用场景效果
全公司85%+ 员工每周使用 Codex跨部门渗透
财务团队审查 24,771 份 K-1 税表(71,637 页)比去年提前 2 周 完成
公关部门分析六个月演讲邀约数据,搭建评分框架低风险请求自动走 Slack AI 处理
市场团队每周业务报告自动生成每周节省 5-10 小时

五、科研能力:最让人意外的部分

如果说编程是意料之中的进步,那 科研 则是 GPT-5.5 最令人震惊的突破。

5.1 发现拉姆齐数新证明

GPT-5.5 的一个内部版本配合自定义工作流,发现了一个关于拉姆齐数(Ramsey Numbers)的新数学证明,并在 Lean 语言中完成了形式化验证。

拉姆齐数是组合数学的核心研究对象——通俗地说,就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见,技术难度极高。

我没看这个论文,太专业了看不懂,感兴趣的可以看看 论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

5.2 科研基准测试

评测GPT-5.5GPT-5.4Claude Opus 4.7说明
GeneBench25.0%19.0%多阶段遗传学数据分析
GeneBench (Pro)33.2%Pro 版本更强
BixBench80.5%生物信息学,所有已公开分数中第一
FrontierMath Tier 435.4%27.1%22.9%陶哲轩等策划的最难数学题
FrontierMath Tier 1-351.7%43.8%相对简单的数学题

关键发现:FrontierMath Tier 4 的差距是 12.5 个百分点,而 Tier 1-3 的差距只有 7.9 个百分点。越到数学前沿,GPT-5.5 的优势越悬殊。

5.3 真实科研案例

免疫学教授 Derya Unutmaz(Jackson 基因医学实验室)用 GPT-5.5 Pro 分析了一个含 62 个样本、近 28,000 个基因的表达数据集,得到一份详尽的研究报告:

"这项工作我的团队做需要几个月。"

数学家 Bartosz Naskręcki(波兹南·密茨凯维奇大学)在 Codex 中 仅用 11 分钟,就从一个单一 prompt 构建了一个代数几何可视化应用。


六、Token 效率革命:更强却更省

这是 GPT-5.5 最被低估的突破。过去每一次模型升级,「更强」和「更慢/更贵」几乎是打包出售的。GPT-5.5 打破了这个规律。

6.1 核心效率指标

指标数据对比
每 Token 延迟与 GPT-5.4 持平更大模型,速度不降
Token 生成速度提升 20%+负载均衡优化
Codex 任务 Token 消耗显著减少完成相同任务更省
NVIDIA GB200 上百万 Token 成本降至前代 1/35基础设施层面
每兆瓦 Token 输出量提升 50 倍能效飞跃

6.2 Artificial Analysis 智能指数

在第三方评测 Artificial Analysis Intelligence Index(10 项 eval 加权平均)上,GPT-5.5 在 同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型。

💡 两种解读方式:

  • 获得相同的分数,GPT-5.5 消耗 token 约为竞品的 一半
  • 消耗同样的 token,GPT-5.5 完成的任务 更多
xychart-beta
    title "Artificial Analysis Coding Index:智能 vs 成本"
    x-axis "成本效率" [1, 2, 3, 4, 5]
    y-axis "智能水平" 0 --> 100
    bar [78, 82, 88, 92, 95]
    line [60, 68, 76, 84, 91]

DoNews


七、英伟达深度合作:从芯片到应用的垂直整合

GPT-5.5 的发布离不开 OpenAI 与英伟达的深度合作。Sam Altman 亲自晒出与黄仁勋的交流邮件。

7.1 NVIDIA GB200 NVL72 部署

GPT-5.5 运行于 NVIDIA GB200 NVL72 机架级系统,为 Codex 提供核心算力支撑。

部署指标数据
系统平台GB200 NVL72 机架级
NVIDIA 内部用户10,000+ 员工
覆盖部门工程、产品、法务、市场等
百万 Token 成本降至前代 1/35
每兆瓦输出提升 50 倍

7.2 实际效果

原本耗时 数天 的调试周期缩短至 数小时;复杂多文件代码库的实验周期从 数周 压缩至 一夜之间。团队甚至能通过自然语言提示实现端到端功能交付。

NVIDIA 工程师的评价更为直白:

"失去 GPT-5.5 的访问权限感觉就像断了一条手臂。"

题外话:近期也获悉在电力方面,Open AI 与各大厂商展开了激烈的角逐,Open AI 一家公司几乎吃掉全美年发电的 6%


八、安全框架:第一次在能力对话里认真占一席

这次 OpenAI 给 GPT-5.5 的安全框架写了相当大的篇幅。

8.1 Preparedness Framework 评估

在 OpenAI 的 Preparedness Framework 中,GPT-5.5 的网络安全和生物/化学能力被评为 "High" 级别(未到 Critical)。

8.2 Trusted Access for Cyber 计划

OpenAI 推出了 分层访问 机制:

访问层级对象权限
标准版所有用户部署更严格的分类器,部分用户初期可能感觉「变保守了」
Trusted Access经过认证的安全研究人员、关键基础设施防御者访问限制较少的版本(chatgpt.com/cyber 申请)

这种分层访问的思路比较务实——**有能力就有风险,但完全锁死又等于让攻击者单方面受益。


九、定价:两年来最贵的 AI 模型

9.1 API 定价对比

模型输入价格(/百万 Token)输出价格(/百万 Token)
GPT-5.4$2.50$15.00
GPT-5.5$5.00$30.00
GPT-5.5 Pro$30.00$180.00
Claude Opus 4.7$5.00$25.00

GPT-5.5 的价格相比 GPT-5.4 整整翻了一倍。这是两年来 OpenAI 第一次成为最贵的选项——输出端比 Anthropic 旗舰还贵 20%

9.2 值得上 GPT 5.5 吗

OpenAI 的解释是 token 效率提升,完成相同任务所用的 token 更少。这个说法在 Codex 场景下可能成立,但:

如果一个团队每月在 GPT-5.4 上花 10 万美元,切换到 GPT-5.5 后即使 token 用量减少 30%,月账单依然会涨到约 14 万美元

结论:GPT-5.5 是一个「你为更强的智能付更多的钱」的 溢价产品。GPT-5.4 大概率会继续作为性价比之选存在。


十、争议与不足:不完美的王冠

10.1 SWE-Bench Pro 落后

编程领域最重要的公开 benchmark 上,GPT-5.5 仍落后 Opus 4.7 近 6 个百分点。OpenAI 对此的回应是质疑对方过拟合,但这个质疑本身也引发了社区争议。

10.2 幻觉率仍高

社区第三方测试显示,GPT-5.5 的幻觉率约 86%(在某些事实性问答评测中),而 Claude Opus 系列约为 36%。这个差距是结构性的,短期难以弥合。

10.3 价格门槛

翻倍的 API 价格意味着中小企业和个人开发者的使用门槛显著提高。更强大的能力被更高的价格所限制,这本身就是一种「能力浪费」。


十一、开放与获取

版本开放对象价格
GPT-5.5(ChatGPT)Plus、Pro、Business、Enterprise包含在订阅中
GPT-5.5(Codex)同上包含在订阅中
GPT-5.5 Pro(ChatGPT)Pro、Business、Enterprise包含在订阅中
GPT-5.5 API即将上线$5/$30(输入/输出)
GPT-5.5 Pro API即将上线$30/$180(输入/输出)

十二、GPT 5.5 升级总结

mindmap
  root((GPT-5.5))
    编程能力
      Terminal-Bench 2.0 碾压
      Expert-SWE 长周期突破
      SWE-Bench Pro 仍落后
    智能体能力
      OSWorld 真实电脑操控
      Tau2-bench 98% 客服自动化
      跨工具端到端交付
    科研能力
      发现拉姆齐数新证明
      GeneBench/BixBench 领先
      FrontierMath 前沿数学突破
    Token 效率
      成本降至 1/35
      输出提升 50 倍
      延迟持平
    争议
      价格翻倍
      幻觉率仍高
      SWE-Bench Pro 落后

GPT-5.5 在编程、智能体控制、长上下文处理、科研辅助,都有实质性提升。 但它也不是无懈可击——SWE-Bench Pro 上还不如 Opus 4.7,价格是两年来最贵,幻觉率与 Anthropic 的差距依然很大。

最终判断:如果是 Codex 里的 Agentic 编程工作流,GPT-5.5 可能真的值这个价;如果是普通对话场景,先等 API 开放、等价格降下来再说。

8 天一个来回。2026 年的 AI 竞赛,跑分只是前菜,Agent 化办公才是主战场

在解读完前两天 Kimi K2.6 以及今天的 GPT 5.5,我才真正意识到,谁先定义「AI 怎么替人干活」,谁就定义下一代系统。这个节奏,只会更快。