GPT-5.5 发布：Agent 原生大脑、Token 成本降至 1/35、AI 协助证明拉姆齐数GPT-5.5震撼发布

2026年4月24日凌晨，OpenAI 正式发布 GPT-5.5——这次发布面向「Agent 时代」的全新基座模型跃升。从编程到科研，从知识工作到计算机操控，GPT-5.5 都有非常优秀的表现。但与此同时，翻倍的 API 价格和仍未解决的幻觉问题，也引来不少争议。

本文将带你逐层拆解 GPT-5.5 的每一个核心突破，看清数字背后的真实含义。

从我个人来看，国内的各大厂商似乎更加强了工程上的智能体联合推进，国外的各大厂商则是兼顾（也可能国内产品的拼智力拼不过吧）。

一、发布背景：8天攻防战，OpenAI 的紧急回应

2026 年的 AI 竞赛已经进入白热化。4 月 16 日，Anthropic 用 Claude Opus 4.7 在 SWE-Bench Pro 上突袭夺走编程王座；Google 的 Gemini 3.1 Pro 也在部分视觉推理上表现强势。OpenAI 感受到了前所未有的压力。

仅仅 8 天后，GPT-5.5 正式登场。

timeline
    title 2026年4月 AI 模型攻防时间线
    4月16日 : Anthropic 发布 Claude Opus 4.7<br/>SWE-Bench Pro 夺冠
    4月22日 : GPT-5.5 意外现身 Codex CLI 终端<br/>被 Reddit 用户曝光
    4月23日 : OpenAI 发布 ChatGPT Images 2.0<br/>同日推出 GPT-5.5
    4月24日 : GPT-5.5 正式向付费用户开放

OpenAI 总裁 Greg Brockman 强调，GPT-5.5 的核心突破在于——

用户无需精心管理每一步，只需把一个杂乱、涉及多个环节的任务交给 GPT-5.5，它就能自主规划、调用工具、检查成果、应对模糊情况，并持续推进。

这不是一句宣传语。从基准测试到真实工作流数据，GPT-5.5 确实在「一次把事情做完」这件事上，迈出了质的飞跃。

二、核心定位：Agent 时代的「原生大脑」

2.1 从「对话工具」到「自主执行者」

GPT-5.5 的官方定位是 「面向实际工作和智能体的新型智能」。和今年很多厂商的发布方向一样，直接面向 Agent 场景。

flowchart LR
    A[模糊指令] --> B[自主规划]
    B --> C[调用工具]
    C --> D[检查结果]
    D --> E{是否完成?}
    E -->|否| F[自我修正]
    F --> C
    E -->|是| G[任务完成]
    
    style A fill:#ff9800,color:#fff
    style G fill:#4caf50,color:#fff
    style B fill:#2196f3,color:#fff
    style C fill:#2196f3,color:#fff
    style D fill:#2196f3,color:#fff
    style F fill:#f44336,color:#fff

2.2 四大核心能力跃升

能力维度	GPT-5.4	GPT-5.5	跃升本质
Agentic Coding	需要逐步指导	自主规划、端到端交付	从「编码助手」到「自主工程师」
计算机使用	基础点击操作	跨应用流转、上下文保持	从「遥控器」到「虚拟员工」
知识工作	生成文档/表格	理解意图、跨工具整合	从「模板填充」到「业务分析师」
科学研究	辅助分析	发现新数学证明	从「工具」到「研究合作者」

三、编程能力：新王登基，但王冠有裂缝

3.1 Terminal-Bench 2.0：碾压级胜利

Terminal-Bench 2.0 测试的是 全链路 Agent 工程实力——给模型一个终端环境和一个模糊目标，让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

模型	Terminal-Bench 2.0
GPT-5.5	82.7%
GPT-5.4	75.1%
Claude Opus 4.7	69.4%
Gemini 3.1 Pro	68.5%

⚡ GPT-5.5 比 Claude Opus 4.7 高出 13.3 个百分点，完全碾压。

3.2 Expert-SWE：长周期任务的突破

OpenAI 内部的 Expert-SWE 评测，专门测试那些 人类预估中位完成时间 20 小时 的长周期编程任务。GPT-5.5 拿到 73.1%，GPT-5.4 为 68.5%。

Cursor CEO Michael Truell 给出实测反馈：

"GPT-5.5 比 GPT-5.4 明显更聪明、更持续，编程性能更强，工具使用更可靠。对于复杂、长时间运行的任务，它能坚持到底不中途停下。"

3.3 SWE-Bench Pro：唯一的短板

但在业界公认最能反映真实 GitHub 问题解决能力的 SWE-Bench Pro 上：

模型	SWE-Bench Pro
Claude Opus 4.7	64.3%
GPT-5.5	58.6%
GPT-5.4	57.7%
Gemini 3.1 Pro	54.2%

GPT-5.5 仍然落后 Opus 4.7 5.7 个百分点。

不过 OpenAI 在这个数据旁边标了一个星号，注明：

Anthropic 报告称在部分问题子集上存在过拟合（记忆）迹象。

Codex 研究员直言：SWE-Bench 已不能衡量顶尖编程能力了。 这个 benchmark 测的是单次 patch 提交，而 GPT-5.5 的真正优势在于 端到端的工程交付——从实现、重构到调试、测试和验证，一气呵成。

3.4 完整 Benchmark 对比一览

评测项	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE（内部）	73.1%	68.5%	—	—
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
SWE-Bench Pro（公开）	58.6%	57.7%	64.3%	54.2%

解读：前五项 GPT-5.5 全面领先，唯一落后的 SWE-Bench Pro 恰恰是 OpenAI 二月份还在力推的「最不容易刷榜」的 benchmark。

四、智能体能力：AI 独立接管电脑的时代

4.1 OSWorld：真实电脑操控

OSWorld-Verified 测试模型能否 独立操控真实电脑环境——点击、输入、在不同应用间切换。GPT-5.5 得分 78.7%，与 Claude Opus 4.7 的 78.0% 基本持平。

但更重要的是实际场景中的表现。在 Codex 中，GPT-5.5 可以：

直接与 Web 应用交互：测试流程、点击页面、截取屏幕
生成高质量文档：电子表格、PPT、财务模型
跨工具流转：在浏览器和本地软件之间无缝切换

4.2 Tau2-bench：复杂客服工作流

在不做 prompt 调整的情况下，GPT-5.5 在 Tau2-bench Telecom 上直接拿到 98.0%，GPT-5.4 是 92.8%。

💡 这意味着在没有针对性优化的情况下，就能处理多轮对话、查询系统、执行操作——几乎完美的客服自动化。(www.ithome.com/0/942/841.h…)

4.3 OpenAI 内部真实使用数据

部门	使用场景	效果
全公司	85%+ 员工每周使用 Codex	跨部门渗透
财务团队	审查 24,771 份 K-1 税表（71,637 页）	比去年提前 2 周完成
公关部门	分析六个月演讲邀约数据，搭建评分框架	低风险请求自动走 Slack AI 处理
市场团队	每周业务报告自动生成	每周节省 5-10 小时

五、科研能力：最让人意外的部分

如果说编程是意料之中的进步，那科研则是 GPT-5.5 最令人震惊的突破。

5.1 发现拉姆齐数新证明

GPT-5.5 的一个内部版本配合自定义工作流，发现了一个关于拉姆齐数（Ramsey Numbers）的新数学证明，并在 Lean 语言中完成了形式化验证。

拉姆齐数是组合数学的核心研究对象——通俗地说，就是一个网络大到什么程度，才一定会出现某种规律性结构。这个领域的新结果极其罕见，技术难度极高。

我没看这个论文，太专业了看不懂，感兴趣的可以看看论文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

5.2 科研基准测试

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	说明
GeneBench	25.0%	19.0%	—	多阶段遗传学数据分析
GeneBench (Pro)	33.2%	—	—	Pro 版本更强
BixBench	80.5%	—	—	生物信息学，所有已公开分数中第一
FrontierMath Tier 4	35.4%	27.1%	22.9%	陶哲轩等策划的最难数学题
FrontierMath Tier 1-3	51.7%	43.8%	—	相对简单的数学题

关键发现：FrontierMath Tier 4 的差距是 12.5 个百分点，而 Tier 1-3 的差距只有 7.9 个百分点。越到数学前沿，GPT-5.5 的优势越悬殊。

5.3 真实科研案例

免疫学教授 Derya Unutmaz（Jackson 基因医学实验室）用 GPT-5.5 Pro 分析了一个含 62 个样本、近 28,000 个基因的表达数据集，得到一份详尽的研究报告：

"这项工作我的团队做需要几个月。"

数学家 Bartosz Naskręcki（波兹南·密茨凯维奇大学）在 Codex 中 仅用 11 分钟，就从一个单一 prompt 构建了一个代数几何可视化应用。

六、Token 效率革命：更强却更省

这是 GPT-5.5 最被低估的突破。过去每一次模型升级，「更强」和「更慢/更贵」几乎是打包出售的。GPT-5.5 打破了这个规律。

6.1 核心效率指标

指标	数据	对比
每 Token 延迟	与 GPT-5.4 持平	更大模型，速度不降
Token 生成速度	提升 20%+	负载均衡优化
Codex 任务 Token 消耗	显著减少	完成相同任务更省
NVIDIA GB200 上百万 Token 成本	降至前代 1/35	基础设施层面
每兆瓦 Token 输出量	提升 50 倍	能效飞跃

6.2 Artificial Analysis 智能指数

在第三方评测 Artificial Analysis Intelligence Index（10 项 eval 加权平均）上，GPT-5.5 在 同等输出 token 量下智能得分最高，token 总消耗明显低于其他模型。

💡 两种解读方式：

获得相同的分数，GPT-5.5 消耗 token 约为竞品的一半

消耗同样的 token，GPT-5.5 完成的任务更多

xychart-beta
    title "Artificial Analysis Coding Index：智能 vs 成本"
    x-axis "成本效率" [1, 2, 3, 4, 5]
    y-axis "智能水平" 0 --> 100
    bar [78, 82, 88, 92, 95]
    line [60, 68, 76, 84, 91]

DoNews

七、英伟达深度合作：从芯片到应用的垂直整合

GPT-5.5 的发布离不开 OpenAI 与英伟达的深度合作。Sam Altman 亲自晒出与黄仁勋的交流邮件。

7.1 NVIDIA GB200 NVL72 部署

GPT-5.5 运行于 NVIDIA GB200 NVL72 机架级系统，为 Codex 提供核心算力支撑。

部署指标	数据
系统平台	GB200 NVL72 机架级
NVIDIA 内部用户	10,000+ 员工
覆盖部门	工程、产品、法务、市场等
百万 Token 成本	降至前代 1/35
每兆瓦输出	提升 50 倍

7.2 实际效果

原本耗时数天的调试周期缩短至 数小时；复杂多文件代码库的实验周期从数周压缩至 一夜之间。团队甚至能通过自然语言提示实现端到端功能交付。

NVIDIA 工程师的评价更为直白：

"失去 GPT-5.5 的访问权限感觉就像断了一条手臂。"

题外话：近期也获悉在电力方面，Open AI 与各大厂商展开了激烈的角逐，Open AI 一家公司几乎吃掉全美年发电的 6%

八、安全框架：第一次在能力对话里认真占一席

这次 OpenAI 给 GPT-5.5 的安全框架写了相当大的篇幅。

8.1 Preparedness Framework 评估

在 OpenAI 的 Preparedness Framework 中，GPT-5.5 的网络安全和生物/化学能力被评为 "High" 级别（未到 Critical）。

8.2 Trusted Access for Cyber 计划

OpenAI 推出了 分层访问 机制：

访问层级	对象	权限
标准版	所有用户	部署更严格的分类器，部分用户初期可能感觉「变保守了」
Trusted Access	经过认证的安全研究人员、关键基础设施防御者	访问限制较少的版本（chatgpt.com/cyber 申请）

这种分层访问的思路比较务实——**有能力就有风险，但完全锁死又等于让攻击者单方面受益。

九、定价：两年来最贵的 AI 模型

9.1 API 定价对比

模型	输入价格（/百万 Token）	输出价格（/百万 Token）
GPT-5.4	$2.50	$15.00
GPT-5.5	$5.00	$30.00
GPT-5.5 Pro	$30.00	$180.00
Claude Opus 4.7	$5.00	$25.00

GPT-5.5 的价格相比 GPT-5.4 整整翻了一倍。这是两年来 OpenAI 第一次成为最贵的选项——输出端比 Anthropic 旗舰还贵 20%。

9.2 值得上 GPT 5.5 吗

OpenAI 的解释是 token 效率提升，完成相同任务所用的 token 更少。这个说法在 Codex 场景下可能成立，但：

如果一个团队每月在 GPT-5.4 上花 10 万美元，切换到 GPT-5.5 后即使 token 用量减少 30%，月账单依然会涨到约 14 万美元。

结论：GPT-5.5 是一个「你为更强的智能付更多的钱」的 溢价产品。GPT-5.4 大概率会继续作为性价比之选存在。

十、争议与不足：不完美的王冠

10.1 SWE-Bench Pro 落后

编程领域最重要的公开 benchmark 上，GPT-5.5 仍落后 Opus 4.7 近 6 个百分点。OpenAI 对此的回应是质疑对方过拟合，但这个质疑本身也引发了社区争议。

10.2 幻觉率仍高

社区第三方测试显示，GPT-5.5 的幻觉率约 86%（在某些事实性问答评测中），而 Claude Opus 系列约为 36%。这个差距是结构性的，短期难以弥合。

10.3 价格门槛

翻倍的 API 价格意味着中小企业和个人开发者的使用门槛显著提高。更强大的能力被更高的价格所限制，这本身就是一种「能力浪费」。

十一、开放与获取

版本	开放对象	价格
GPT-5.5（ChatGPT）	Plus、Pro、Business、Enterprise	包含在订阅中
GPT-5.5（Codex）	同上	包含在订阅中
GPT-5.5 Pro（ChatGPT）	Pro、Business、Enterprise	包含在订阅中
GPT-5.5 API	即将上线	$5/$30（输入/输出）
GPT-5.5 Pro API	即将上线	$30/$180（输入/输出）

十二、GPT 5.5 升级总结

mindmap
  root((GPT-5.5))
    编程能力
      Terminal-Bench 2.0 碾压
      Expert-SWE 长周期突破
      SWE-Bench Pro 仍落后
    智能体能力
      OSWorld 真实电脑操控
      Tau2-bench 98% 客服自动化
      跨工具端到端交付
    科研能力
      发现拉姆齐数新证明
      GeneBench/BixBench 领先
      FrontierMath 前沿数学突破
    Token 效率
      成本降至 1/35
      输出提升 50 倍
      延迟持平
    争议
      价格翻倍
      幻觉率仍高
      SWE-Bench Pro 落后

GPT-5.5 在编程、智能体控制、长上下文处理、科研辅助，都有实质性提升。但它也不是无懈可击——SWE-Bench Pro 上还不如 Opus 4.7，价格是两年来最贵，幻觉率与 Anthropic 的差距依然很大。

最终判断：如果是 Codex 里的 Agentic 编程工作流，GPT-5.5 可能真的值这个价；如果是普通对话场景，先等 API 开放、等价格降下来再说。

8 天一个来回。2026 年的 AI 竞赛，跑分只是前菜，Agent 化办公才是主战场。

在解读完前两天 Kimi K2.6 以及今天的 GPT 5.5，我才真正意识到，谁先定义「AI 怎么替人干活」，谁就定义下一代系统。这个节奏，只会更快。