OpenAI GPT-5.5实测

0 阅读6分钟

距离上一代GPT-5.4发布仅过去七周,OpenAI便祭出了GPT-5.5,主打"用更少的指导完成更多工作"——重点强化了agentic coding(智能体编程)、computer use(计算机操作)、knowledge work(知识工作)以及科研任务能力。我们对其API版本gpt-5.5进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

gpt-5.5版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):75.3%
  • 平均耗时(每次调用):15s
  • 平均token(每次调用消耗的token):955
  • 平均花费(每千次调用的人民币花费):158.5

1、新旧对决

对比上一代版本gpt-5.4-high,GPT-5.5的变化呈现出一个鲜明的特征:输出更短、速度更快、单价更贵,但综合花费小幅上涨却换来了准确率的明显提升。数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能稳步提升:新版本准确率从72.6%提升至75.3%,提升了2.7个百分点,排名从第7位升至第2位。
  • 推理能力提升最为突出:从细分领域来看,"推理与数学计算"从78.2%提升至83.7%,提升了5.5个百分点。"agent与工具调用"从60.3%提升至65.0%,提升了4.7个百分点,与官方主打的智能体能力升级方向相吻合。
  • 多个垂直领域均有改善:法律与行政公务从81.5%提升至89.0%(+7.5%),医疗与心理健康从85.3%提升至88.0%(+2.7%),coding从70.5%提升至71.5%(+1.0%),教育从59.9%提升至61.4%(+1.5%)。
  • 部分领域出现小幅回调:金融从85.1%降至83.7%(-1.4%),语言与指令遵从从72.3%基本持平至72.2%(-0.1%)。这反映模型在能力调整过程中存在一定的取舍。
  • 响应速度显著提升:平均耗时从24s缩短至15s,缩短约38%,与官方"在保持GPT-5.4同等延迟的前提下提供更高智能"的说法一致。
  • Token消耗明显下降:平均token从1364降至955,降幅约30%。这印证了官方所称"用更少的token完成相同任务"的token效率优化。

2、横向对比

在当前主流大模型竞争格局中,gpt-5.5作为新晋榜眼表现如何?我们从三个维度进行横向对比分析。需要说明的是,本次评测侧重中文文本场景下的综合能力考察:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 高端商用区间内的速度优势突出:在该100-200元档位中,gpt-5.5(75.3%,15s)与qwen3.6-max-preview(75.4%,80s)准确率几乎持平,但耗时差不多是后者的五分之一;与gpt-5.4-high(72.6%,24s,122.3元)相比,gpt-5.5在花费略有上涨的情况下提供了2.7个百分点的准确率提升和近10秒的速度优势。
  • 与更高成本档位的对比:相较于成本更高的gemini-3.1-pro-preview(75.2%,53s,250.5元),gpt-5.5在准确率上略胜0.1个百分点,耗时仅为其约三分之一,且花费低约37%。与claude-sonnet-4.5-thinking(66.2%,39s,305.1元)相比,gpt-5.5在准确率领先9.1个百分点的同时,调用成本仅为其约一半。
  • 与低成本档位的差距:在20-25元/千次的低成本区间,Doubao-Seed-2.0-pro(72.8%,22.5元)和qwen3.5-plus(73.3%,22.9元)以约gpt-5.5七分之一的成本,提供了与gpt-5.5相差约2-3个百分点的准确率。对于预算敏感型场景,国内开源/商用模型仍是更经济的选择。

新旧模型对比

  • 自身代际进步明确:gpt-5.5(75.3%)相较gpt-5.4-high(72.6%)提升了2.7个百分点,相较gpt-5.2-high(67.3%)提升了8.0个百分点,相较更早的gpt-5.1-high(67.1%)和gpt-5-2025-08-07(66.8%)提升幅度更大。OpenAI的代际迭代路径清晰可见。
  • OpenAI产品线矩阵梳理:从榜单来看,OpenAI形成了较为完整的产品矩阵——旗舰级的gpt-5.5(75.3%,第2位)领跑,次级的gpt-5.4-high(72.6%,第7位)紧随其后,往下依次是gpt-5.2-high(67.3%,第27位)、gpt-5.1-high(67.1%,第29位)、gpt-5.1-medium(67.0%,第30位)、gpt-5.4-mini-high(65.7%,第39位)、gpt-5.3-chat(64.9%,第42位)、gpt-5.2-medium(63.4%,第52位)。覆盖了从顶级推理到日常对话的不同需求。
  • 对比其他厂商的新模型:gpt-5.5(75.3%)超过了多个近期发布的新版本,包括gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)、deepseek-v4-pro(71.7%)等。

开源VS闭源对比

  • 闭源阵营的速度标杆:gpt-5.5在闭源阵营中以15s的平均耗时和75.3%的准确率,提供了一个特殊的产品定位——"高准确率+低延迟"。在闭源Top模型中,与gemini-3.1-pro-preview(75.2%,53s)、qwen3.6-max-preview(75.4%,80s)、Doubao-Seed-2.0-pro(72.8%,309s)相比,gpt-5.5在保持顶级准确率的同时,响应速度具备明显优势。
  • 开源阵营的强力追赶:开源模型在榜单上展现出极强的存在感。qwen3.5-plus(73.3%,第4位)以仅22.9元/千次的成本紧追gpt-5.5,差距仅2个百分点;kimi-k2.6(72.9%,100.4元)、deepseek-v4-pro(71.7%,54.3元)、Qwen3.5-122B-A10B(70.9%,32.3元)等开源模型也都跻身榜单前列。开源阵营对闭源顶级模型的追赶趋势已经相当明显。

3、官方评测

根据OpenAI官方博客发布的信息(openai.com/index/intro… ),GPT-5.5是自GPT-4.5以来首次完全重新训练的基础模型,重点提升了智能体能力、编程能力、计算机操作能力以及科研工作能力。

智能体编程能力

  • Terminal-Bench 2.0:在测试复杂命令行工作流(涉及规划、迭代和工具协调)的基准上,GPT-5.5达到了82.7%的业界领先准确率。
  • SWE-Bench Pro:在评测真实GitHub问题解决能力的基准上,GPT-5.5达到58.6%,单次通过率超越前代模型(注:Claude Opus 4.7在该基准上以64.3%领先)。
  • Expert-SWE:在OpenAI内部针对长程编程任务(中位数估计需要人类20小时完成)的前沿评测中,GPT-5.5达到73.1%,相比GPT-5.4的68.5%有明显提升。
  • 三项编程评测中,GPT-5.5在提升准确率的同时使用了更少的token。

知识工作与企业应用

  • GDPval:在覆盖44种职业的知识工作基准上,GPT-5.5得分84.9%,输出质量在85%的任务上达到或超过人类专业人员水平(GPT-5.4为83%,Anthropic Opus 4.7为80.3%)。
  • OSWorld-Verified:在测试模型自主操作真实计算机环境的基准上,GPT-5.5达到78.7%(GPT-5.4为75.0%)。
  • Tau2-bench Telecom:在测试复杂客户服务工作流的基准上,未经prompt调优的情况下达到98.0%(GPT-5.4为92.8%)。
  • FinanceAgent:60.0%;内部投资银行建模任务:88.5%;OfficeQA Pro:54.1%。

科研能力

  • GeneBench:基因学和定量生物学多阶段数据分析基准,GPT-5.5得分25.0%,GPT-5.5 Pro得分33.2%(GPT-5.4为19.0%)。
  • BixBench:生物信息学基准,GPT-5.5得分80.5%(GPT-5.4为74.0%)。
  • 官方提及,配备自定义harness的GPT-5.5内部版本协助发现了关于Ramsey数(组合数学领域)的新证明,并通过Lean完成了形式化验证。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear