2026年4月24日凌晨,OpenAI 正式发布 GPT-5.5——这次发布面向「Agent 时代」的全新基座模型跃升。从编程到科研,从知识工作到计算机操控,GPT-5.5 都有非常优秀的表现。但与此同时,翻倍的 API 价格和仍未解决的幻觉问题,也引来不少争议。
本文将带你逐层拆解 GPT-5.5 的每一个核心突破,看清数字背后的真实含义。
从我个人来看,国内的各大厂商似乎更加强了工程上的智能体联合推进,国外的各大厂商则是兼顾(也可能国内产品的拼智力拼不过吧)。
一、发布背景:8天攻防战,OpenAI 的紧急回应
2026 年的 AI 竞赛已经进入白热化。4 月 16 日,Anthropic 用 Claude Opus 4.7 在 SWE-Bench Pro 上突袭夺走编程王座;Google 的 Gemini 3.1 Pro 也在部分视觉推理上表现强势。OpenAI 感受到了前所未有的压力。
仅仅 8 天后,GPT-5.5 正式登场。
timeline
title 2026年4月 AI 模型攻防时间线
4月16日 : Anthropic 发布 Claude Opus 4.7<br/>SWE-Bench Pro 夺冠
4月22日 : GPT-5.5 意外现身 Codex CLI 终端<br/>被 Reddit 用户曝光
4月23日 : OpenAI 发布 ChatGPT Images 2.0<br/>同日推出 GPT-5.5
4月24日 : GPT-5.5 正式向付费用户开放
OpenAI 总裁 Greg Brockman 强调,GPT-5.5 的核心突破在于——
用户无需精心管理每一步,只需把一个杂乱、涉及多个环节的任务交给 GPT-5.5,它就能自主规划、调用工具、检查成果、应对模糊情况,并持续推进。
这不是一句宣传语。从基准测试到真实工作流数据,GPT-5.5 确实在「一次把事情做完」这件事上,迈出了质的飞跃。
二、核心定位:Agent 时代的「原生大脑」
2.1 从「对话工具」到「自主执行者」
GPT-5.5 的官方定位是 「面向实际工作和智能体的新型智能」。和今年很多厂商的发布方向一样,直接面向 Agent 场景。
flowchart LR
A[模糊指令] --> B[自主规划]
B --> C[调用工具]
C --> D[检查结果]
D --> E{是否完成?}
E -->|否| F[自我修正]
F --> C
E -->|是| G[任务完成]
style A fill:#ff9800,color:#fff
style G fill:#4caf50,color:#fff
style B fill:#2196f3,color:#fff
style C fill:#2196f3,color:#fff
style D fill:#2196f3,color:#fff
style F fill:#f44336,color:#fff
2.2 四大核心能力跃升
| 能力维度 | GPT-5.4 | GPT-5.5 | 跃升本质 |
|---|---|---|---|
| Agentic Coding | 需要逐步指导 | 自主规划、端到端交付 | 从「编码助手」到「自主工程师」 |
| 计算机使用 | 基础点击操作 | 跨应用流转、上下文保持 | 从「遥控器」到「虚拟员工」 |
| 知识工作 | 生成文档/表格 | 理解意图、跨工具整合 | 从「模板填充」到「业务分析师」 |
| 科学研究 | 辅助分析 | 发现新数学证明 | 从「工具」到「研究合作者」 |
三、编程能力:新王登基,但王冠有裂缝
3.1 Terminal-Bench 2.0:碾压级胜利
Terminal-Bench 2.0 测试的是 全链路 Agent 工程实力——给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。
| 模型 | Terminal-Bench 2.0 |
|---|---|
| GPT-5.5 | 82.7% |
| GPT-5.4 | 75.1% |
| Claude Opus 4.7 | 69.4% |
| Gemini 3.1 Pro | 68.5% |
⚡ GPT-5.5 比 Claude Opus 4.7 高出 13.3 个百分点,完全碾压。
3.2 Expert-SWE:长周期任务的突破
OpenAI 内部的 Expert-SWE 评测,专门测试那些 人类预估中位完成时间 20 小时 的长周期编程任务。GPT-5.5 拿到 73.1%,GPT-5.4 为 68.5%。
Cursor CEO Michael Truell 给出实测反馈:
"GPT-5.5 比 GPT-5.4 明显更聪明、更持续,编程性能更强,工具使用更可靠。对于复杂、长时间运行的任务,它能坚持到底不中途停下。"
3.3 SWE-Bench Pro:唯一的短板
但在业界公认最能反映真实 GitHub 问题解决能力的 SWE-Bench Pro 上:
| 模型 | SWE-Bench Pro |
|---|---|
| Claude Opus 4.7 | 64.3% |
| GPT-5.5 | 58.6% |
| GPT-5.4 | 57.7% |
| Gemini 3.1 Pro | 54.2% |
GPT-5.5 仍然落后 Opus 4.7 5.7 个百分点。
不过 OpenAI 在这个数据旁边标了一个星号,注明:
Anthropic 报告称在部分问题子集上存在过拟合(记忆)迹象。
Codex 研究员直言:SWE-Bench 已不能衡量顶尖编程能力了。 这个 benchmark 测的是单次 patch 提交,而 GPT-5.5 的真正优势在于 端到端的工程交付——从实现、重构到调试、测试和验证,一气呵成。
3.4 完整 Benchmark 对比一览
| 评测项 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE(内部) | 73.1% | 68.5% | — | — |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| SWE-Bench Pro(公开) | 58.6% | 57.7% | 64.3% | 54.2% |
解读:前五项 GPT-5.5 全面领先,唯一落后的 SWE-Bench Pro 恰恰是 OpenAI 二月份还在力推的「最不容易刷榜」的 benchmark。
四、智能体能力:AI 独立接管电脑的时代
4.1 OSWorld:真实电脑操控
OSWorld-Verified 测试模型能否 独立操控真实电脑环境——点击、输入、在不同应用间切换。GPT-5.5 得分 78.7%,与 Claude Opus 4.7 的 78.0% 基本持平。
但更重要的是实际场景中的表现。在 Codex 中,GPT-5.5 可以:
- 直接与 Web 应用交互:测试流程、点击页面、截取屏幕
- 生成高质量文档:电子表格、PPT、财务模型
- 跨工具流转:在浏览器和本地软件之间无缝切换
4.2 Tau2-bench:复杂客服工作流
在不做 prompt 调整的情况下,GPT-5.5 在 Tau2-bench Telecom 上直接拿到 98.0%,GPT-5.4 是 92.8%。
💡 这意味着在没有针对性优化的情况下,就能处理多轮对话、查询系统、执行操作——几乎完美的客服自动化。(www.ithome.com/0/942/841.h…)
4.3 OpenAI 内部真实使用数据
| 部门 | 使用场景 | 效果 |
|---|---|---|
| 全公司 | 85%+ 员工每周使用 Codex | 跨部门渗透 |
| 财务团队 | 审查 24,771 份 K-1 税表(71,637 页) | 比去年提前 2 周 完成 |
| 公关部门 | 分析六个月演讲邀约数据,搭建评分框架 | 低风险请求自动走 Slack AI 处理 |
| 市场团队 | 每周业务报告自动生成 | 每周节省 5-10 小时 |
五、科研能力:最让人意外的部分
如果说编程是意料之中的进步,那 科研 则是 GPT-5.5 最令人震惊的突破。
5.1 发现拉姆齐数新证明
GPT-5.5 的一个内部版本配合自定义工作流,发现了一个关于拉姆齐数(Ramsey Numbers)的新数学证明,并在 Lean 语言中完成了形式化验证。
拉姆齐数是组合数学的核心研究对象——通俗地说,就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见,技术难度极高。
我没看这个论文,太专业了看不懂,感兴趣的可以看看 论文地址:
https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf
5.2 科研基准测试
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | 说明 |
|---|---|---|---|---|
| GeneBench | 25.0% | 19.0% | — | 多阶段遗传学数据分析 |
| GeneBench (Pro) | 33.2% | — | — | Pro 版本更强 |
| BixBench | 80.5% | — | — | 生物信息学,所有已公开分数中第一 |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 陶哲轩等策划的最难数学题 |
| FrontierMath Tier 1-3 | 51.7% | 43.8% | — | 相对简单的数学题 |
关键发现:FrontierMath Tier 4 的差距是 12.5 个百分点,而 Tier 1-3 的差距只有 7.9 个百分点。越到数学前沿,GPT-5.5 的优势越悬殊。
5.3 真实科研案例
免疫学教授 Derya Unutmaz(Jackson 基因医学实验室)用 GPT-5.5 Pro 分析了一个含 62 个样本、近 28,000 个基因的表达数据集,得到一份详尽的研究报告:
"这项工作我的团队做需要几个月。"
数学家 Bartosz Naskręcki(波兹南·密茨凯维奇大学)在 Codex 中 仅用 11 分钟,就从一个单一 prompt 构建了一个代数几何可视化应用。
六、Token 效率革命:更强却更省
这是 GPT-5.5 最被低估的突破。过去每一次模型升级,「更强」和「更慢/更贵」几乎是打包出售的。GPT-5.5 打破了这个规律。
6.1 核心效率指标
| 指标 | 数据 | 对比 |
|---|---|---|
| 每 Token 延迟 | 与 GPT-5.4 持平 | 更大模型,速度不降 |
| Token 生成速度 | 提升 20%+ | 负载均衡优化 |
| Codex 任务 Token 消耗 | 显著减少 | 完成相同任务更省 |
| NVIDIA GB200 上百万 Token 成本 | 降至前代 1/35 | 基础设施层面 |
| 每兆瓦 Token 输出量 | 提升 50 倍 | 能效飞跃 |
6.2 Artificial Analysis 智能指数
在第三方评测 Artificial Analysis Intelligence Index(10 项 eval 加权平均)上,GPT-5.5 在 同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型。
💡 两种解读方式:
- 获得相同的分数,GPT-5.5 消耗 token 约为竞品的 一半
- 消耗同样的 token,GPT-5.5 完成的任务 更多
xychart-beta
title "Artificial Analysis Coding Index:智能 vs 成本"
x-axis "成本效率" [1, 2, 3, 4, 5]
y-axis "智能水平" 0 --> 100
bar [78, 82, 88, 92, 95]
line [60, 68, 76, 84, 91]
七、英伟达深度合作:从芯片到应用的垂直整合
GPT-5.5 的发布离不开 OpenAI 与英伟达的深度合作。Sam Altman 亲自晒出与黄仁勋的交流邮件。
7.1 NVIDIA GB200 NVL72 部署
GPT-5.5 运行于 NVIDIA GB200 NVL72 机架级系统,为 Codex 提供核心算力支撑。
| 部署指标 | 数据 |
|---|---|
| 系统平台 | GB200 NVL72 机架级 |
| NVIDIA 内部用户 | 10,000+ 员工 |
| 覆盖部门 | 工程、产品、法务、市场等 |
| 百万 Token 成本 | 降至前代 1/35 |
| 每兆瓦输出 | 提升 50 倍 |
7.2 实际效果
原本耗时 数天 的调试周期缩短至 数小时;复杂多文件代码库的实验周期从 数周 压缩至 一夜之间。团队甚至能通过自然语言提示实现端到端功能交付。
NVIDIA 工程师的评价更为直白:
"失去 GPT-5.5 的访问权限感觉就像断了一条手臂。"
题外话:近期也获悉在电力方面,Open AI 与各大厂商展开了激烈的角逐,Open AI 一家公司几乎吃掉全美年发电的 6%
八、安全框架:第一次在能力对话里认真占一席
这次 OpenAI 给 GPT-5.5 的安全框架写了相当大的篇幅。
8.1 Preparedness Framework 评估
在 OpenAI 的 Preparedness Framework 中,GPT-5.5 的网络安全和生物/化学能力被评为 "High" 级别(未到 Critical)。
8.2 Trusted Access for Cyber 计划
OpenAI 推出了 分层访问 机制:
| 访问层级 | 对象 | 权限 |
|---|---|---|
| 标准版 | 所有用户 | 部署更严格的分类器,部分用户初期可能感觉「变保守了」 |
| Trusted Access | 经过认证的安全研究人员、关键基础设施防御者 | 访问限制较少的版本(chatgpt.com/cyber 申请) |
这种分层访问的思路比较务实——**有能力就有风险,但完全锁死又等于让攻击者单方面受益。
九、定价:两年来最贵的 AI 模型
9.1 API 定价对比
| 模型 | 输入价格(/百万 Token) | 输出价格(/百万 Token) |
|---|---|---|
| GPT-5.4 | $2.50 | $15.00 |
| GPT-5.5 | $5.00 | $30.00 |
| GPT-5.5 Pro | $30.00 | $180.00 |
| Claude Opus 4.7 | $5.00 | $25.00 |
GPT-5.5 的价格相比 GPT-5.4 整整翻了一倍。这是两年来 OpenAI 第一次成为最贵的选项——输出端比 Anthropic 旗舰还贵 20%。
9.2 值得上 GPT 5.5 吗
OpenAI 的解释是 token 效率提升,完成相同任务所用的 token 更少。这个说法在 Codex 场景下可能成立,但:
如果一个团队每月在 GPT-5.4 上花 10 万美元,切换到 GPT-5.5 后即使 token 用量减少 30%,月账单依然会涨到约 14 万美元。
结论:GPT-5.5 是一个「你为更强的智能付更多的钱」的 溢价产品。GPT-5.4 大概率会继续作为性价比之选存在。
十、争议与不足:不完美的王冠
10.1 SWE-Bench Pro 落后
编程领域最重要的公开 benchmark 上,GPT-5.5 仍落后 Opus 4.7 近 6 个百分点。OpenAI 对此的回应是质疑对方过拟合,但这个质疑本身也引发了社区争议。
10.2 幻觉率仍高
社区第三方测试显示,GPT-5.5 的幻觉率约 86%(在某些事实性问答评测中),而 Claude Opus 系列约为 36%。这个差距是结构性的,短期难以弥合。
10.3 价格门槛
翻倍的 API 价格意味着中小企业和个人开发者的使用门槛显著提高。更强大的能力被更高的价格所限制,这本身就是一种「能力浪费」。
十一、开放与获取
| 版本 | 开放对象 | 价格 |
|---|---|---|
| GPT-5.5(ChatGPT) | Plus、Pro、Business、Enterprise | 包含在订阅中 |
| GPT-5.5(Codex) | 同上 | 包含在订阅中 |
| GPT-5.5 Pro(ChatGPT) | Pro、Business、Enterprise | 包含在订阅中 |
| GPT-5.5 API | 即将上线 | $5/$30(输入/输出) |
| GPT-5.5 Pro API | 即将上线 | $30/$180(输入/输出) |
十二、GPT 5.5 升级总结
mindmap
root((GPT-5.5))
编程能力
Terminal-Bench 2.0 碾压
Expert-SWE 长周期突破
SWE-Bench Pro 仍落后
智能体能力
OSWorld 真实电脑操控
Tau2-bench 98% 客服自动化
跨工具端到端交付
科研能力
发现拉姆齐数新证明
GeneBench/BixBench 领先
FrontierMath 前沿数学突破
Token 效率
成本降至 1/35
输出提升 50 倍
延迟持平
争议
价格翻倍
幻觉率仍高
SWE-Bench Pro 落后
GPT-5.5 在编程、智能体控制、长上下文处理、科研辅助,都有实质性提升。 但它也不是无懈可击——SWE-Bench Pro 上还不如 Opus 4.7,价格是两年来最贵,幻觉率与 Anthropic 的差距依然很大。
最终判断:如果是 Codex 里的 Agentic 编程工作流,GPT-5.5 可能真的值这个价;如果是普通对话场景,先等 API 开放、等价格降下来再说。
8 天一个来回。2026 年的 AI 竞赛,跑分只是前菜,Agent 化办公才是主战场。
在解读完前两天 Kimi K2.6 以及今天的 GPT 5.5,我才真正意识到,谁先定义「AI 怎么替人干活」,谁就定义下一代系统。这个节奏,只会更快。