OpenAI GPT-5.4 Mini实测

0 阅读7分钟

OpenAI在发布旗舰级GPT-5.4之后,迅速补齐了产品线的关键一环——正式推出GPT-5.4 Mini和Nano两款轻量级模型。官方定位非常明确:GPT-5.4 Mini是专为编码助手、子智能体(subagent)和高吞吐量工作负载设计的高效模型,在编码、推理、多模态理解和工具调用方面相较前代GPT-5 Mini有显著提升,同时运行速度提升超过2倍。在SWE-Bench Pro和OSWorld-Verified等多项评测中,GPT-5.4 Mini已经接近旗舰GPT-5.4的表现。

需要特别说明的是,本次评测我们主要侧重中文场景下的综合能力考察。而GPT-5.4 Mini的核心升级方向——编码能力、计算机操控等,在当前的中文评测框架中并未得到充分体现。因此,本文的测试数据更多反映的是该模型在中文文本理解和逻辑推理方面的基础能力,而非其全部实力。

gpt-5.4-mini-high版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):67.5%
  • 平均耗时(每次调用):65s
  • 平均token(每次调用消耗的token):2479
  • 平均花费(每千次调用的人民币花费):71.8

1、新旧对决

对比上一代版本(gpt-5-mini-high),gpt-5.4-mini-high在准确率和响应速度上实现了双重提升,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 整体性能显著提升:新版本准确率从61.3%提升至67.5%,提升了6.2个百分点,排名从第86位升至第38位,进步幅度可观。
  • 医疗与心理健康领域提升最为突出:从56.6%提升至80.4%(+23.8%),这一跨度极为罕见,表明新模型在医疗知识储备和推理链路上经历了根本性的优化。
  • 法律与行政公务领域稳步提升:从56.7%提升至73.3%(+16.6%),在专业知识密集型场景中展现了更强的能力。
  • 语言与指令遵从提升明显:从55.8%提升至68.9%(+13.1%),意味着gpt-5.4-mini-high在处理复杂中文指令时的理解力和执行力有了明显改善。
  • 教育领域有所提升:从35.4%提升至42.3%(+6.9%),虽有进步但绝对值仍偏低,这一领域依然是gpt-5.4-mini-high的短板。
  • 金融领域小幅提升:从68.3%提升至70.8%(+2.5%),变化不大,基本保持稳定。
  • Agent与工具调用基本持平:从57.2%微升至58.4%(+1.2%),考虑到官方在工具调用方面投入了大量优化(Toolathlon从26.9%提升至42.9%),这一维度在中文评测中未能充分体现其进步。
  • 推理与数学计算出现回调:值得关注的是,该维度从79.8%下降至76.3%(-3.5%)。这一回调可能与模型架构调整有关——gpt-5.4-mini-high作为轻量化模型,在推理深度上做了一定取舍。
  • 响应速度大幅提升:平均耗时从503s骤降至65s,提速约87%。这一变化与官方宣称的”运行速度提升超过2倍”高度吻合,实际体验上的改善甚至更为显著。对于一个定位”低延迟、高吞吐”的模型而言,这正是其核心竞争力。
  • Token消耗与成本分析:平均Token消耗从3551降至2479(-30%),说明模型在输出策略上更加精炼。然而,由于输出价格从14.5元/M token上调至31.5元/M token(涨幅约117%),每千次调用的费用反而从48.4元增至71.8元,成本上涨约48%。这是一个典型的”单价上调、用量下降、总费用上涨”的组合——模型虽然变得更高效,但单位算力的定价也更高了。准确率提升6.2个百分点,代价是成本上涨约48%,这一交换是否值得,取决于具体的应用场景和对延迟的敏感程度。

2、横向对比:轻量高速模型的竞争坐标

在当前主流大模型竞争格局中,gpt-5.4-mini-high作为OpenAI面向高效推理场景的轻量级思考模型表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 在同成本区间内,gpt-5.4-mini-high(67.5%,71.8元)的竞争对手并不多。同区间可参照的模型包括gpt-5.1-medium(69.3%,87.9元)和qwen3-max-preview-think(68.2%,86.8元),两者准确率略高但花费也更大。gpt-5.4-mini-high在该档位中成本效率比具备一定优势。
  • 向上看,gpt-5.4-high(72.6%,122.3元)以更高的准确率拉开了约5.1个百分点的差距,但花费也接近翻倍。claude-opus-4.6(70.5%,96.5元)同样准确率更高,且花费差距不算悬殊。
  • 向下看,GLM-5-Turbo(71.5%,60.8元)以更低的花费和更高的准确率构成了直接竞争。gemini-3-flash-preview(71.5%,53.5元)同样在花费更低的情况下准确率领先约4个百分点。在纯粹追求中文场景成本效率比的维度上,gpt-5.4-mini-high并不占优。
  • 然而需要强调的是,gpt-5.4-mini-high的核心竞争力在于速度——65s的平均响应时间在同档位中极具竞争力,这一维度在需要实时交互的编码助手、计算机操控和子智能体协作场景中,价值远大于单纯的准确率数字。

新旧模型对比

  • 代际跃升显著:相比上一代gpt-5-mini-high(61.3%,排名第86位),gpt-5.4-mini-high(67.5%,排名第38位)提升了6.2个百分点,排名前进了48位。这一进步幅度在OpenAI的Mini系列中相当可观。
  • OpenAI产品线矩阵:从榜单数据来看,OpenAI系模型呈现出清晰的层级分布——gpt-5.4-high(72.6%,第7位)为旗舰档,gpt-5.3-chat(70.6%,第21位)处于中高端,gpt-5.1-high(69.7%,第24位)、gpt-5.1-medium(69.3%,第25位)、o4-mini(69.0%,第26位)位于中游偏上,gpt-5-2025-08-07(68.9%,第27位)紧随其后,gpt-5.4-mini-high(67.5%,第38位)和gpt-5.2-high(67.5%,第42位)处于中游。可以看到,gpt-5.4-mini-high的准确率已经与上一代旗舰gpt-5-2025-08-07(68.9%)非常接近,印证了”上一代旗舰成为下一代中端”的行业趋势。
  • 对比其他厂商近期新模型:在排名相近的区间内,MiniMax-M2.7(67.7%,第35位)、qwen3-max-2026-01-23(67.6%,第37位)与gpt-5.4-mini-high接近。但从定位来看,这些模型多为通用型或推理型,而gpt-5.4-mini-high的差异化优势在于其编码和工具调用能力,以及65s的低延迟响应。

开源VS闭源对比

  • 闭源阵营中的效率担当:gpt-5.4-mini-high作为闭源商用模型,在总分准确率上并非顶尖,但其”速度+编码+工具调用”的组合能力使其在特定场景中不可替代。
  • 开源模型的成本效率比冲击:在67%至72%的准确率区间内,开源模型表现强势。GLM-4.7(71.5%,52.5元)、Kimi-K2.5-Thinking(71.3%,77.1元)、GLM-5(71.0%,61.2元)均以更低或相近的花费提供了更高的准确率。DeepSeek-V3.2-Think(70.9%,7.5元)更是以极低成本提供了接近顶尖的性能。
  • 不过,上述开源模型在响应速度上普遍不如gpt-5.4-mini-high。例如Kimi-K2.5-Thinking的平均耗时为338s,GLM-5为130s,DeepSeek-V3.2-Think为144s,而gpt-5.4-mini-high仅为65s。对于对延迟敏感的实时应用场景,这一速度优势具有实际的商业价值。
  • 此外,GPT-5.4 Mini在编码和计算机操控方面的生态优势——与Codex深度整合、支持子智能体架构、原生计算机操控能力(OSWorld-Verified 72.1%)——是当前中文评测指标无法完全覆盖的差异化能力。

3、官方评测

OpenAI新发布的GPT-5.4 Mini和GPT-5.4 Nano,定位为”迄今最强的小型模型”,专为编码、子智能体和高吞吐量工作负载设计。

编码能力

  • 在SWE-Bench Pro上,GPT-5.4 Mini得分54.4%,相比GPT-5 Mini的45.7%有显著提升,且接近旗舰GPT-5.4的57.7%。
  • Terminal-Bench 2.0上,GPT-5.4 Mini达到60.0%,远超GPT-5 Mini的38.2%。
  • GPT-5.4 Mini特别擅长针对性编辑、代码库导航、前端生成和调试循环等低延迟编码任务。

推理与知识能力

  • GPQA Diamond:GPT-5.4 Mini得分88.0%,接近旗舰GPT-5.4的93.0%,相比GPT-5 Mini的81.6%提升明显。
  • Toolathlon(工具链调用):从GPT-5 Mini的26.9%提升至GPT-5.4 Mini的42.9%。
  • τ2-bench Telecom:从GPT-5 Mini的74.1%提升至GPT-5.4 Mini的93.4%。

计算机操控能力

在OSWorld-Verified上,GPT-5.4 Mini得分72.1%,紧追旗舰GPT-5.4的75.0%,而GPT-5 Mini仅为42.0%。这意味着GPT-5.4 Mini的计算机操控能力在一代之间接近翻倍。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear