OpenAI GPT-5.4 非思考模式实测

0 阅读5分钟

在上一篇文章中,我们对GPT-5.4的高推理版本gpt-5.4-high进行了全面评测,其以72.6%的准确率位列总榜第7,可见OpenAI旗舰模型在中文场景下的强劲实力。而本篇文章聚焦的是GPT-5.4的非推理模式版本——即关闭深度思考后的"裸跑"状态。这一版本的核心定位并非比拼极限推理深度,而是以极低延迟和极少token消耗提供快速响应,适用于对速度敏感、无需复杂推理的日常交互和轻量级任务场景。

需要说明的是,本次评测依然侧重中文场景下的综合能力考察。GPT-5.4的核心亮点——原生Computer Use、百万级上下文窗口、Tool Search等能力,在非推理模式下同样可用,但在当前的中文文本评测框架下未能充分体现。此外,非推理模式的准确率天然低于推理模式,因此本文的数据更适合与其他模型的非推理版本进行横向比较,而非与推理模型直接对标。

gpt-5.4版本表现:

-  测试题数:约1.5万
-  总分(准确率):61.5%
-  平均耗时(每次调用):7s
-  平均token(每次调用消耗的token):531
-  平均花费(每千次调用的人民币花费):34.8

1、新旧对决

对比上一代非推理版本(gpt-5.2),gpt-5.4在中文场景下实现了整体性的能力提升,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

整体性能稳步提升:新版本准确率从56.9%提升至61.5%,提升了4.6个百分点,排名从第94位升至第82位,前进了12个位次。

专业领域多数维度改善:从细分领域来看,新版本在大多数维度上实现了提升。

  • 教育:从39.6%提升至46.4%(+6.8%),改善幅度较大。
  • 金融:从71.4%提升至75.3%(+3.9%),稳步提升。
  • 法律与行政公务:从66.3%提升至68.7%(+2.4%),小幅改善。
  • 医疗与心理健康:从72.9%提升至74.3%(+1.4%),基本持平。

语言与指令遵从:提升幅度最大,从52.5%提升至62.7%(+10.2%),改善极为显著,表明GPT-5.4在非推理模式下对复杂中文指令的理解和遵从能力有了大幅增强。

Agent与工具调用出现回调:"Agent与工具调用"从56.2%降至53.5%(-2.7%),是唯一出现下降的维度。考虑到GPT-5.4主打的Tool Search和Computer Use能力在高推理模式下表现突出(gpt-5.4-high该维度为60.3%),非推理模式下的回调可能与推理深度不足导致工具调用决策质量下降有关。

推理与数学计算:从54.7%提升至62.2%(+7.5%),进步明显。值得一提的是,gpt-5.4-high在该维度上出现了回调(84.8%→78.2%),而非推理模式反而实现了较大提升,二者在推理策略上可能存在不同的优化方向。

极速响应:平均耗时仅为7s,相比gpt-5.2的6s仅增加1s,在准确率提升4.6个百分点的前提下,几乎保持了同等的响应速度。对比gpt-5.4-high的24s,非推理模式在速度上具有明显优势。
Token消耗与成本:平均Token消耗从448增至531,增加约18.5%。输出单价从99.4元/百万token上调至105.0元/百万token,每千次调用的费用从23.7元增加至34.8元,成本上涨约47%。成本增幅高于准确率增幅,但考虑到非推理模式的绝对花费水平仍较低(34.8元/千次),在轻量级任务场景下仍具有较好的经济性。

2、横向对比:非推理模式的竞争格局

在当前主流大模型竞争格局中,gpt-5.4作为OpenAI旗舰的非推理版本表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 中低成本区间的定位:gpt-5.4(61.5%,34.8元)处于30至40元/千次的成本区间。在该区间附近,gpt-5-2025-08-07(68.9%,31.9元)以更低的花费提供了明显更高的准确率,而GLM-4.6(68.1%,37.6元)同样在准确率上大幅领先。即便将视野放宽至更低花费的区间,qwen3-max-2026-01-23(67.6%,9.7元)和o4-mini(69.0%,40.3元)等模型在准确率和成本效率上也更具竞争力。
  • 与同家族推理版本的对比:gpt-5.4-high(72.6%,122.3元)在准确率上领先非推理版本11.1个百分点,但花费是其3.5倍,响应时间是其3.4倍(24s vs 7s)。对于不需要深度推理的场景,非推理模式以约四分之一的成本和三分之一的延迟提供了基础能力,这一取舍是否合理取决于具体的应用场景。
  • 速度优势突出:gpt-5.4的7s响应时间在整个榜单中处于第一梯队,对于需要即时响应的对话类场景(如客服、实时问答),这一速度优势构成了核心竞争力。

新旧模型对比

  • 非推理模式的代际进步:gpt-5.4(61.5%,第82位)相较于gpt-5.2(56.9%,第94位)提升了4.6个百分点和12个位次,代际进步明确。但与推理版本的进步幅度相比(gpt-5.4-high较gpt-5.2-high提升5.1个百分点、32个位次),非推理模式的进步相对温和。
  • 与其他厂商轻量模型的距离:对比其他厂商的轻量或非推理版本,如gemini-3-flash-preview(71.5%,53.5元)、step-3.5-flash(64.2%,9.8元)等,gpt-5.4在准确率上并不占优,但在响应速度上保持领先。

开源VS闭源对比

  • 非推理模式下的格局:在非推理/轻量模型的比较中,闭源与开源的界限相对模糊。gpt-5.4(61.5%)作为闭源模型,在准确率上落后于多个开源模型,如qwen3.5-flash(70.8%)、DeepSeek-V3.2-Think(70.9%)等。
  • 差异化的价值来源:gpt-5.4非推理模式的核心价值不在于中文准确率的绝对水平,而在于其作为GPT-5.4生态的"轻量入口"——相同的原生Computer Use能力、Tool Search机制和百万级上下文窗口,以更低的成本和更快的速度提供服务。对于已经深度集成GPT-5.4生态的开发者而言,非推理模式提供了一个在速度和成本之间灵活切换的选项。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear