GPT-5.5跑分深度拆解MMLU破92数学推理全面刷新SOTA

0 阅读4分钟

最近在几个AI工具聚合平台上把主流模型拉出来跑了一轮实测库拉(c.877ai.cn),GPT-5.5的成绩单值得单独拿出来聊聊。

ScreenShot_2026-03-25_105432_015.png 4月23号OpenAI发布这款代号"Spud"的旗舰模型,距GPT-5.4还不到两个月。迭代速度在加快,但分数涨了多少、涨在哪,才值得开发者关注。


GPT-5系列的演进脉络:8个月跑了四代

先捋一下时间线。2025年8月7日GPT-5首发,同年12月GPT-5.2上线,2026年2月GPT-5.3-Codex跟进,3月GPT-5.4发布,4月底GPT-5.5落地。

不到一年,五个大版本。这个迭代节奏在AI行业里算激进的。OpenAI的策略很清晰:小步快跑,每一代在特定场景上拉出差距。

数学推理:从94.6%到更高的台阶

GPT-5首发时,AIME无工具测试拿到94.6%。到GPT-5.2,直接满分。GPT-5.5在这个基础上继续推,数学推理链的完整度和中间步骤的准确率都有提升。

做量化策略和数据分析的开发者应该有感知:模型数学能力的提升不只是"算对题",更关键的是推理链条不断裂——每一步推导都能闭环,不跳步、不编造中间结论。

编程基准:从56.8%到更强的Agent闭环

GPT-5.3-Codex在SWE-Bench Pro上拿到56.8%,比GPT-5.2的55.6%高出1.2个百分点。Terminal-Bench 2.0更明显,从64.0%跳到77.3%。

GPT-5.5延续了这个方向。它的核心升级不是单行代码补全更快,而是多步Agent任务的闭环能力更强——规划路径、调用工具、校验结果、持续推进,四个环节一气呵成。

幻觉控制:从GPT-5开始的持续改善

GPT-5首发时,网络搜索场景的事实性错误率较GPT-4o降低45%,Thinking模式下较o3降低约80%。这个改善趋势在5.2、5.4、5.5上持续存在。

但要泼一盆冷水:幻觉没有根除。面对冷门框架或最新API文档,模型依然会自信地编造不存在的接口参数。"生成-验证-修正"的流程不能省。

知识工作:70.9%的任务超越行业专家

GPT-5.2在GDPval测试(44个职业的真实工作任务)中,Thinking版在70.9%的任务上胜过或打平行业专家。GPT-5.3-Codex在同一测试上保持70.9%。

OpenAI给出的说法是:速度是人类专家的11倍,成本不到1%。评测员的原话是"看起来像一个有员工的专业公司做的"。

长上下文:4-needle变体首次接近100%

GPT-5.2在MRCRv2测试中,4-needle变体256k token长度下接近100%准确率,GPT-5.1同条件下只有30%左右。这是该测试中首个达到这个水平的模型。

对做长文档分析和大型代码库理解的人来说,这个提升是实打实的。不用再反复提醒模型"之前说了什么"。

价格:贵了,但有降本空间

GPT-5系列定价分三档:标准版1.25/1.25/10,mini版0.25/0.25/2,nano版0.05/0.05/0.40(输入/输出,每百万tokens)。

GPT-5.5作为旗舰版,定价更高。但OpenAI称同等任务的token消耗更少,Thinking模式下输出tokens较o3减少50-80%。实际降本要看具体业务场景。

务实做法:复杂推理用5.5,高频轻量任务用mini或nano,分层调用比全量切换划算得多。

趋势判断:模型趋同,应用分化

从GPT-5到5.5,8个月四次大迭代。Claude Opus 4.6、Gemini 3也在同步追赶。前沿模型的能力差距在收窄。

真正的差异化不在基准分数,而在谁能把模型能力转化成具体场景的生产力。对开发者来说,架构设计比模型选择更重要——Prompt标准化、验证流程自动化、模型路由策略化,这三件事做好了,换哪个版本都能快速上手。


最后

GPT-5.5在数学推理和Agent闭环上确实拉开了身位。但翻倍的定价、依然存在的幻觉、对冷门知识的覆盖不足,都是实打实的短板。

建议先跑几个真实任务再决定投入深度。工具的价值,最终取决于用它的人的判断力。