OpenAI GPT-5.4实测OpenAI发布GPT-5.4，整合推理、编程与原生Computer Use，支持百万t

OpenAI在gpt-5.3-chat之后，紧接着正式发布了GPT-5.4——官方将其定位为"面向专业工作的最强通用前沿模型"。这是OpenAI首次将旗舰推理模型、编程模型（GPT-5.3-Codex）和原生Computer Use能力整合进同一个模型，同时将上下文窗口扩展至100万token。面对Gemini 3.1 Pro、claude-opus-4.6、Doubao-Seed-2.0-pro等近期密集发布的强力竞品，GPT-5.4的到来显然是OpenAI在专业工作场景上的一次全面反击。我们对其高推理版本gpt-5.4-high进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要特别说明的是，本次评测我们主要聚焦于极为严苛的中文场景与逻辑内核测试。GPT-5.4的核心升级方向——原生Computer Use（OSWorld-Verified上以75.0%超越人类的72.4%）、百万级上下文窗口、Tool Search带来的47%的token节省、以及在GDPval上以83%的成绩匹配或超过44个职业的行业专家——这些能力在当前的中文评测框架下未能充分体现。因此，本次评测呈现的是GPT-5.4在中文综合能力上的"底层实力"，其在专业工作场景下的真实上限远高于此。

gpt-5.4-high版本表现：

测试题数：约1.5万
总分（准确率）：72.6%
平均耗时（每次调用）：24s
平均token（每次调用消耗的token）：1364
平均花费（每千次调用的人民币花费）：122.3

1、新旧对决：全面补强，速度更快

对比上一代版本（gpt-5.2-high），gpt-5.4-high在中文场景下实现了全面且显著的提升，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从67.5%提升至72.6%，提升了5.1个百分点，排名从第39位跃升至第7位，前进了32个位次，进步幅度在近期所有模型迭代中极为突出。
专业领域全面增强：从细分领域来看，新版本在绝大多数维度上展现了大幅度的能力提升。
教育：提升幅度最大，从48.3%提升至59.9%（+11.6%），改善极为明显，表明新模型在教育场景下的知识覆盖和推理准确性有了质的改善。
金融：从76.4%提升至85.1%（+8.7%），跃入该维度的第一梯队。
语言与指令遵从：从63.8%提升至72.3%（+8.5%），意味着模型在处理复杂中文指令时更加游刃有余。
医疗与心理健康：从77.9%提升至85.3%（+7.4%），提升幅度同样可观。
法律与行政公务：从76.0%提升至81.5%（+5.5%），稳步提升。
Agent与工具调用：从50.8%提升至60.3%（+9.5%），这与GPT-5.4主打的原生Computer Use和Tool Search定位高度吻合。
推理与数学计算存在回调："推理与数学计算"从84.8%降至78.2%（-6.6%），是唯一出现明显下降的维度。考虑到GPT-5.4在官方基准上的推理能力极强，这一回调可能与中文的表述理解、或模型在推理策略上的调整有关，值得后续关注。
响应速度显著提升：平均耗时从36s缩短至24s，提速约33%。在准确率大幅提升的同时，响应速度反而更快，用户体验显著改善。
Token消耗与成本：平均Token消耗从1259增至1364，小幅增加约8.3%。输出价格从99.4元/百万token上调至105.0元/百万token，每千次调用的费用从94.1元增加至122.3元，成本上涨约30%。综合来看，GPT-5.4以约30%的成本增加换来了5.1个百分点的准确率提升和32个位次的排名跃升，这一"投入产出比"在同类模型迭代中属于较为合理的水平。

2、诸神黄昏：横向对比其他模型

在当前主流大模型竞争格局中，gpt-5.4-high作为OpenAI面向专业工作场景的旗舰模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

高成本区间的强势回归：在100至130元/千次的档位中，gpt-5.4-high（72.6%，122.3元）展现了该区间内最强的综合实力。对比同处高成本区间的claude-opus-4.6（70.5%，96.5元），gpt-5.4-high在准确率上领先了2.1个百分点，但花费也更高。对于追求极致综合智力且预算充裕的场景，gpt-5.4-high提供了更强的模型能力，但其核心差异化优势——原生Computer Use和百万级上下文——在纯文本评测中并未充分展现。
向上看：对比成本更高的gemini-3.1-pro-preview（74.8%，250.5元），gpt-5.4-high在准确率上落后2.2个百分点，但花费仅为后者的约一半，成本效率比具备一定优势。
向下看：对比成本远低于自己的头部模型，如Doubao-Seed-2.0-pro（76.5%，22.5元）和qwen3.5-plus（74.6%，22.9元），gpt-5.4-high在准确率上分别落后3.9和2.0个百分点，而花费却是它们的约5倍。纯粹从中文综合评测的角度来看，gpt-5.4-high在成本效率上并不占优。但需要指出的是，gpt-5.4-high的核心价值在于其专业工作场景（Computer Use、长上下文、工具调用效率），这些能力在低成本模型中尚不具备。
速度维度的差异化：gpt-5.4-high的平均耗时仅为24s，是所有头部模型中响应最快的之一。相比之下，Doubao-Seed-2.0-pro的平均耗时为309s，qwen3.5-plus为57s，gemini-3.1-pro-preview为53s。对于需要实时交互的专业场景，gpt-5.4-high在响应速度上具有显著优势。

新旧模型对比

OpenAI产品线的代际跃升：gpt-5.4-high（72.6%，第7位）相较于gpt-5.2-high（67.5%，第39位）实现了巨大进步。同时，gpt-5.3-chat（70.6%，第21位）和gpt-5.1-high（69.7%，第24位）也各有表现，OpenAI的产品线在中文能力上呈现出逐代提升的清晰路径。
与其他厂商新模型的对比：在近期发布的新模型中，gpt-5.4-high（72.6%）的表现超过了GLM-4.7（71.5%）、ERNIE-5.0（70.9%）、DeepSeek-V3.2-Think（70.9%）等模型，但与榜首的Doubao-Seed-2.0-pro（76.5%）和第2位的gemini-3.1-pro-preview（74.8%）仍存在一定差距。
榜单头部格局：当前榜单前三甲被Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）和qwen3.5-plus（74.6%）包揽，gpt-5.4-high位列第7。不过，考虑到gpt-5.4-high的核心升级方向并非中文文本推理，而是Computer Use、专业知识工作和工具调用效率，这一排名更多反映的是其"中文底层实力"，而非其在目标场景下的真实竞争力。

开源VS闭源对比

闭源阵营内部分化：gpt-5.4-high作为闭源模型，准确率（72.6%）超过了同为闭源的claude-opus-4.6（70.5%）和gpt-5.1-high（69.7%），但与Doubao-Seed-2.0-pro（76.5%）存在较大差距。闭源模型之间的竞争已不再是单一维度的准确率比拼，而是在综合能力、成本效率和场景适配性上的全方位博弈。
开源阵营的持续施压：开源模型表现同样亮眼。qwen3.5-plus（74.6%）作为开源标杆，准确率反超gpt-5.4-high达2.0个百分点。此外，GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）等开源模型均紧随其后，开源阵营对闭源模型的追赶已形成全面态势。
生态价值的差异：虽然在中文准确率上，部分开源模型已实现对gpt-5.4-high的超越，但gpt-5.4-high独有的原生Computer Use能力、Tool Search机制带来的47%的token节省、以及百万级上下文窗口，构成了其在Agent和专业工作流场景下不可替代的生态优势。这些能力目前尚未被开源模型广泛覆盖。

3、官方评测

GPT-5.4是OpenAI首个具备原生Computer Use能力的通用模型，官方在多个基准上展示了其表现。以下基于OpenAI官方博客内容（openai.com/zh-Hans-CN/…

专业知识工作（GDPval）

GPT-5.4在GDPval基准上达到了83.0%的成绩，相比GPT-5.2的70.9%提升了12.1个百分点。GDPval测试AI在44个职业类别（涵盖美国GDP贡献最高的9个行业）中完成专业工作的能力，任务包括销售演示文稿、会计电子表格、急诊排班、制造业图纸和短视频等真实工作产出。在投资银行初级分析师的电子表格建模任务中，GPT-5.4的平均得分为87.3%，而GPT-5.2为68.4%。人类评审在68%的情况下更偏好GPT-5.4生成的演示文稿。

Computer Use（OSWorld-Verified）

在OSWorld-Verified基准上，GPT-5.4达到了75.0%的成功率，超过了人类表现的72.4%，远超GPT-5.2的47.3%。该基准测试模型通过截图和键鼠操作导航桌面环境的能力。GPT-5.4可以通过Playwright等库编写代码来操控计算机，也可以直接基于截图发出鼠标和键盘指令，开发者还可通过系统消息配置模型行为以适配不同使用场景。

浏览器使用与网页搜索

在WebArena-Verified基准上，GPT-5.4达到了67.3%的成功率（同时使用DOM和截图驱动交互），高于GPT-5.2的65.4%。在Online-Mind2Web基准上，GPT-5.4仅通过截图观察即达到92.8%的成功率。在BrowseComp基准上，GPT-5.4达到82.7%，GPT-5.4 Pro进一步达到89.3%，相比GPT-5.2的65.8%提升显著。这意味着GPT-5.4在需要跨多个网页来源持续搜索并综合信息的复杂任务上表现更强。

视觉理解

在MMMU-Pro基准上（测试视觉理解与推理），GPT-5.4达到81.2%，高于GPT-5.2的79.5%。在OmniDocBench文档解析基准上，GPT-5.4在不使用推理的情况下平均误差降至0.109（GPT-5.2为0.140）。此外，GPT-5.4引入了新的"original"图像输入精度级别，支持最高1024万像素或6000像素最大维度的全保真度感知。

编程能力

GPT-5.4整合了GPT-5.3-Codex的编程能力。在SWE-Bench Pro基准上，GPT-5.4达到57.7%，与GPT-5.3-Codex的56.8%持平或略超，同时具备更低的延迟。在Codex中，/fast模式可提供最高1.5倍的token输出速度。

在Toolathlon基准上（测试AI使用真实工具和API完成多步骤任务的能力），GPT-5.4相比GPT-5.2以更少的轮次达到了更高的准确率。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear