OpenAI GPT-5.4实测

0 阅读9分钟

OpenAI在gpt-5.3-chat之后,紧接着正式发布了GPT-5.4——官方将其定位为"面向专业工作的最强通用前沿模型"。这是OpenAI首次将旗舰推理模型、编程模型(GPT-5.3-Codex)和原生Computer Use能力整合进同一个模型,同时将上下文窗口扩展至100万token。面对Gemini 3.1 Pro、claude-opus-4.6、Doubao-Seed-2.0-pro等近期密集发布的强力竞品,GPT-5.4的到来显然是OpenAI在专业工作场景上的一次全面反击。我们对其高推理版本gpt-5.4-high进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要特别说明的是,本次评测我们主要聚焦于极为严苛的中文场景与逻辑内核测试。GPT-5.4的核心升级方向——原生Computer Use(OSWorld-Verified上以75.0%超越人类的72.4%)、百万级上下文窗口、Tool Search带来的47%的token节省、以及在GDPval上以83%的成绩匹配或超过44个职业的行业专家——这些能力在当前的中文评测框架下未能充分体现。因此,本次评测呈现的是GPT-5.4在中文综合能力上的"底层实力",其在专业工作场景下的真实上限远高于此。

gpt-5.4-high版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):72.6%
  • 平均耗时(每次调用):24s
  • 平均token(每次调用消耗的token):1364
  • 平均花费(每千次调用的人民币花费):122.3

1、新旧对决:全面补强,速度更快

对比上一代版本(gpt-5.2-high),gpt-5.4-high在中文场景下实现了全面且显著的提升,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能显著提升:新版本准确率从67.5%提升至72.6%,提升了5.1个百分点,排名从第39位跃升至第7位,前进了32个位次,进步幅度在近期所有模型迭代中极为突出。

  • 专业领域全面增强:从细分领域来看,新版本在绝大多数维度上展现了大幅度的能力提升。

  • 教育:提升幅度最大,从48.3%提升至59.9%(+11.6%),改善极为明显,表明新模型在教育场景下的知识覆盖和推理准确性有了质的改善。

  • 金融:从76.4%提升至85.1%(+8.7%),跃入该维度的第一梯队。

  • 语言与指令遵从:从63.8%提升至72.3%(+8.5%),意味着模型在处理复杂中文指令时更加游刃有余。

  • 医疗与心理健康:从77.9%提升至85.3%(+7.4%),提升幅度同样可观。

  • 法律与行政公务:从76.0%提升至81.5%(+5.5%),稳步提升。

  • Agent与工具调用:从50.8%提升至60.3%(+9.5%),这与GPT-5.4主打的原生Computer Use和Tool Search定位高度吻合。

  • 推理与数学计算存在回调:"推理与数学计算"从84.8%降至78.2%(-6.6%),是唯一出现明显下降的维度。考虑到GPT-5.4在官方基准上的推理能力极强,这一回调可能与中文的表述理解、或模型在推理策略上的调整有关,值得后续关注。

  • 响应速度显著提升:平均耗时从36s缩短至24s,提速约33%。在准确率大幅提升的同时,响应速度反而更快,用户体验显著改善。

  • Token消耗与成本:平均Token消耗从1259增至1364,小幅增加约8.3%。输出价格从99.4元/百万token上调至105.0元/百万token,每千次调用的费用从94.1元增加至122.3元,成本上涨约30%。综合来看,GPT-5.4以约30%的成本增加换来了5.1个百分点的准确率提升和32个位次的排名跃升,这一"投入产出比"在同类模型迭代中属于较为合理的水平。

2、诸神黄昏:横向对比其他模型

在当前主流大模型竞争格局中,gpt-5.4-high作为OpenAI面向专业工作场景的旗舰模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 高成本区间的强势回归:在100至130元/千次的档位中,gpt-5.4-high(72.6%,122.3元)展现了该区间内最强的综合实力。对比同处高成本区间的claude-opus-4.6(70.5%,96.5元),gpt-5.4-high在准确率上领先了2.1个百分点,但花费也更高。对于追求极致综合智力且预算充裕的场景,gpt-5.4-high提供了更强的模型能力,但其核心差异化优势——原生Computer Use和百万级上下文——在纯文本评测中并未充分展现。
  • 向上看:对比成本更高的gemini-3.1-pro-preview(74.8%,250.5元),gpt-5.4-high在准确率上落后2.2个百分点,但花费仅为后者的约一半,成本效率比具备一定优势。
  • 向下看:对比成本远低于自己的头部模型,如Doubao-Seed-2.0-pro(76.5%,22.5元)和qwen3.5-plus(74.6%,22.9元),gpt-5.4-high在准确率上分别落后3.9和2.0个百分点,而花费却是它们的约5倍。纯粹从中文综合评测的角度来看,gpt-5.4-high在成本效率上并不占优。但需要指出的是,gpt-5.4-high的核心价值在于其专业工作场景(Computer Use、长上下文、工具调用效率),这些能力在低成本模型中尚不具备。
  • 速度维度的差异化:gpt-5.4-high的平均耗时仅为24s,是所有头部模型中响应最快的之一。相比之下,Doubao-Seed-2.0-pro的平均耗时为309s,qwen3.5-plus为57s,gemini-3.1-pro-preview为53s。对于需要实时交互的专业场景,gpt-5.4-high在响应速度上具有显著优势。

新旧模型对比

  • OpenAI产品线的代际跃升:gpt-5.4-high(72.6%,第7位)相较于gpt-5.2-high(67.5%,第39位)实现了巨大进步。同时,gpt-5.3-chat(70.6%,第21位)和gpt-5.1-high(69.7%,第24位)也各有表现,OpenAI的产品线在中文能力上呈现出逐代提升的清晰路径。
  • 与其他厂商新模型的对比:在近期发布的新模型中,gpt-5.4-high(72.6%)的表现超过了GLM-4.7(71.5%)、ERNIE-5.0(70.9%)、DeepSeek-V3.2-Think(70.9%)等模型,但与榜首的Doubao-Seed-2.0-pro(76.5%)和第2位的gemini-3.1-pro-preview(74.8%)仍存在一定差距。
  • 榜单头部格局:当前榜单前三甲被Doubao-Seed-2.0-pro(76.5%)、gemini-3.1-pro-preview(74.8%)和qwen3.5-plus(74.6%)包揽,gpt-5.4-high位列第7。不过,考虑到gpt-5.4-high的核心升级方向并非中文文本推理,而是Computer Use、专业知识工作和工具调用效率,这一排名更多反映的是其"中文底层实力",而非其在目标场景下的真实竞争力。

开源VS闭源对比

  • 闭源阵营内部分化:gpt-5.4-high作为闭源模型,准确率(72.6%)超过了同为闭源的claude-opus-4.6(70.5%)和gpt-5.1-high(69.7%),但与Doubao-Seed-2.0-pro(76.5%)存在较大差距。闭源模型之间的竞争已不再是单一维度的准确率比拼,而是在综合能力、成本效率和场景适配性上的全方位博弈。
  • 开源阵营的持续施压:开源模型表现同样亮眼。qwen3.5-plus(74.6%)作为开源标杆,准确率反超gpt-5.4-high达2.0个百分点。此外,GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、GLM-5(71.0%)等开源模型均紧随其后,开源阵营对闭源模型的追赶已形成全面态势。
  • 生态价值的差异:虽然在中文准确率上,部分开源模型已实现对gpt-5.4-high的超越,但gpt-5.4-high独有的原生Computer Use能力、Tool Search机制带来的47%的token节省、以及百万级上下文窗口,构成了其在Agent和专业工作流场景下不可替代的生态优势。这些能力目前尚未被开源模型广泛覆盖。

3、官方评测

GPT-5.4是OpenAI首个具备原生Computer Use能力的通用模型,官方在多个基准上展示了其表现。以下基于OpenAI官方博客内容(openai.com/zh-Hans-CN/…

专业知识工作(GDPval)

GPT-5.4在GDPval基准上达到了83.0%的成绩,相比GPT-5.2的70.9%提升了12.1个百分点。GDPval测试AI在44个职业类别(涵盖美国GDP贡献最高的9个行业)中完成专业工作的能力,任务包括销售演示文稿、会计电子表格、急诊排班、制造业图纸和短视频等真实工作产出。在投资银行初级分析师的电子表格建模任务中,GPT-5.4的平均得分为87.3%,而GPT-5.2为68.4%。人类评审在68%的情况下更偏好GPT-5.4生成的演示文稿。

Computer Use(OSWorld-Verified)

在OSWorld-Verified基准上,GPT-5.4达到了75.0%的成功率,超过了人类表现的72.4%,远超GPT-5.2的47.3%。该基准测试模型通过截图和键鼠操作导航桌面环境的能力。GPT-5.4可以通过Playwright等库编写代码来操控计算机,也可以直接基于截图发出鼠标和键盘指令,开发者还可通过系统消息配置模型行为以适配不同使用场景。

浏览器使用与网页搜索

在WebArena-Verified基准上,GPT-5.4达到了67.3%的成功率(同时使用DOM和截图驱动交互),高于GPT-5.2的65.4%。在Online-Mind2Web基准上,GPT-5.4仅通过截图观察即达到92.8%的成功率。在BrowseComp基准上,GPT-5.4达到82.7%,GPT-5.4 Pro进一步达到89.3%,相比GPT-5.2的65.8%提升显著。这意味着GPT-5.4在需要跨多个网页来源持续搜索并综合信息的复杂任务上表现更强。

视觉理解

在MMMU-Pro基准上(测试视觉理解与推理),GPT-5.4达到81.2%,高于GPT-5.2的79.5%。在OmniDocBench文档解析基准上,GPT-5.4在不使用推理的情况下平均误差降至0.109(GPT-5.2为0.140)。此外,GPT-5.4引入了新的"original"图像输入精度级别,支持最高1024万像素或6000像素最大维度的全保真度感知。

编程能力

GPT-5.4整合了GPT-5.3-Codex的编程能力。在SWE-Bench Pro基准上,GPT-5.4达到57.7%,与GPT-5.3-Codex的56.8%持平或略超,同时具备更低的延迟。在Codex中,/fast模式可提供最高1.5倍的token输出速度。

在Toolathlon基准上(测试AI使用真实工具和API完成多步骤任务的能力),GPT-5.4相比GPT-5.2以更少的轮次达到了更高的准确率。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear