OpenAI在发布GPT-5.4 Mini的同时,还推出了产品线中体量最小、成本最低的GPT-5.4 Nano。官方对这款模型的定位非常明确:它是GPT-5.4家族中最小、最便宜的版本,专为速度和成本优先的场景而生,推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。在OpenAI设想的多模型协作架构中,GPT-5.4负责规划和最终判断,GPT-5.4 Mini执行中等复杂度子任务,而Nano则承担最轻量、最高频的基础工作。
需要特别说明的是,本次评测主要是GPT-5.4 Mini的high思考版本,且侧重中文场景下的综合能力考察。GPT-5.4 Nano的核心设计目标——极低延迟、极低成本下的分类与提取任务,以及作为子智能体在多模型工作流中的协作能力。本文的数据更多反映的是其中文文本理解和逻辑推理方面的基础水平。
gpt-5.4-nano-high版本表现:
- 测试题数:约1.5万
- 总分(准确率):62.0%
- 平均耗时(每次调用):75s
- 平均token(每次调用消耗的token):1822
- 平均花费(每千次调用的人民币花费):13.2
1、新旧对决
对比上一代版本(gpt-5-nano-high),gpt-5.4-nano-high在准确率、响应速度和成本控制三个维度上同时实现了改善,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能稳步提升:新版本准确率从56.9%提升至62.0%,提升了5.1个百分点,排名从第104位升至第79位,进步明显。
- 法律与行政公务领域提升最为突出:从54.0%提升至69.0%(+15.0%),提升幅度可观,表明新模型在专业知识密集型场景中的能力有了明显增强。
- Agent与工具调用提升显著:从52.4%提升至63.1%(+10.7%),这与gpt-5.4-nano-high作为子智能体的核心定位高度吻合——在多模型工作流中承担工具调用和任务执行的角色,这一能力的提升具有直接的应用价值。
- 金融领域稳步提升:从57.5%提升至66.8%(+9.3%),进步较为明显。
- 教育领域有所提升:从33.9%提升至39.1%(+5.2%),虽有进步但绝对值仍偏低。
- 医疗与心理健康小幅提升:从58.9%提升至63.2%(+4.3%),保持了稳定的上升趋势。
- 推理与数学计算小幅提升:从72.9%提升至77.2%(+4.3%),值得注意的是,这一维度是gpt-5.4-nano-high的相对强项,77.2%的成绩在整体榜单中已具备一定竞争力。
- 语言与指令遵从出现回调:值得关注的是,该维度从52.7%下降至48.7%(-4.0%)。作为一款定位轻量级任务的模型,在复杂中文指令的理解和遵从上出现一定程度的取舍,或许与模型架构精简有关。这一维度是gpt-5.4-nano-high当前最明显的短板。
- 响应速度大幅提升:平均耗时从488s骤降至75s,提速约85%。这一改善与官方对Nano"低延迟"的定位完全一致,75s的响应时间使其在需要快速响应的工作流中具备实用性。
- Token消耗与成本分析:这是本次升级中最值得关注的变化之一。平均Token消耗从6870大幅降至1822(-73%),降幅极为显著。尽管输出价格从2.9元/M token上调至8.75元/M token(涨幅约202%),但由于Token消耗的大幅缩减,每千次调用的费用反而从19.3元降至13.2元,成本下降约32%。这是一个"单价大幅上调、用量大幅缩减、总费用反降"的典型案例——模型通过更精炼的输出策略,在单价翻倍的情况下依然实现了总成本的下降。准确率提升5.1个百分点的同时,成本还降低了约32%,这在当前的模型迭代中属于难得的"双赢"。
2、横向对比:超低成本区间的竞争格局
在当前主流大模型竞争格局中,gpt-5.4-nano-high作为OpenAI产品线中成本最低的思考模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 在花费10至15元/千次的低成本区间内,gpt-5.4-nano-high(62.0%,13.2元)需要面对的竞争并不轻松。同区间可参照的模型包括qwen3.5-flash(70.8%,10.4元),后者以更低的花费提供了高出8.8个百分点的准确率,成本效率比优势明显。
- 向下看,Doubao-Seed-2.0-lite(73.9%,5.4元)、doubao-seed-1-8-251215(71.7%,7.3元)等豆包系列模型在更低或相近的成本下提供了显著更高的准确率。DeepSeek-V3.2-Think(70.9%,7.5元)和DeepSeek-V3.2-Exp-Think(70.1%,6.1元)同样以极低成本大幅领先。
- 在纯粹的中文场景成本效率比维度上,gpt-5.4-nano-high在该档位中并不占优。然而,需要结合模型定位来看:Nano并非为追求最高准确率而设计,而是为极速响应和多模型协作中的轻量子任务而生。75s的响应时间和极低的Token消耗(1822),使其在需要高频、快速调用的子智能体场景中具备独特价值。
- 同时值得注意的是,gpt-5.4-nano-high的花费(13.2元)远低于同家族的gpt-5.4-mini-high(71.8元)和gpt-5.4-high(122.3元),在OpenAI产品线内部提供了一个成本友好的入口选择。
新旧模型对比
- 代际进步明显:相比上一代gpt-5-nano-high(56.9%,排名第104位),gpt-5.4-nano-high(62.0%,排名第79位)提升了5.1个百分点,排名前进了25位,同时成本还有所下降。
- OpenAI Nano系列的定位进化:从gpt-5-nano-high到gpt-5.4-nano-high,模型不仅在准确率上有了可观的提升,更关键的是在效率上实现了质变——Token消耗减少73%、响应时间缩短85%、总成本下降32%。这些数据表明,gpt-5.4-nano-high不只是"更聪明了",而是在"更聪明的同时变得更高效"。
- OpenAI完整产品矩阵:从榜单来看,OpenAI系模型覆盖了从旗舰到轻量的完整层级——gpt-5.4-high(72.6%,第7位)为顶端,gpt-5.3-chat(70.6%,第21位)、gpt-5.1-high(69.7%,第24位)、gpt-5.1-medium(69.3%,第25位)、o4-mini(69.0%,第26位)覆盖中高端,gpt-5-2025-08-07(68.9%,第27位)、gpt-5.4-mini-high(67.5%,第38位)处于中游,gpt-5.2-medium(64.3%,第63位)和gpt-5.4-nano-high(62.0%,第79位)则覆盖中低端市场。产品线层次分明,各档位均有对应选择。
- 值得一提的是,gpt-5.4-nano-high(62.0%)已经超过了更早期的gpt-5.2-medium(64.3%除外)之前的多款旧模型,"最小的新模型超越上一代中端"这一趋势在Nano系列上同样得到验证。
开源VS闭源对比
- 闭源阵营中的入门选手:gpt-5.4-nano-high在闭源模型中准确率处于中下游,在62%左右的区间内,与MiMo-V2-Flash-think(62.0%,第78位)基本持平。
- 开源模型的强势表现:在相近或更低成本下,开源模型的竞争力更为突出。DeepSeek-V3.2-Think(70.9%,7.5元)以约一半的花费提供了高出近9个百分点的准确率;Doubao-Seed-2.0-lite(73.9%,5.4元)更是以不到一半的花费领先近12个百分点。开源阵营在低成本区间的优势非常明显。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear