GPT-5.4 mini API 实测:和 Claude 4.6、DeepSeek V3、Qwen 3 打了一圈,结果出乎意料

8 阅读1分钟

上周 OpenAI 悄悄放出了 GPT-5.4 mini,定位是 GPT-5 系列的轻量版——更便宜、更快、上下文更长。我第一反应是:又来一个 mini?上次 GPT-4o mini 出来的时候我就觉得「缩水版能打吗」,结果真香了好几个月。这次 GPT-5.4 mini 我花了两天时间,拉了几个同级别模型做了一轮横评,数据跑完说实话有点意外。

GPT-5.4 mini 是 OpenAI 在 2026 年推出的轻量级模型,主打低成本高性价比,代码生成和指令遵循的表现接近 GPT-5 主力版,价格只有其 1/5 左右。日常开发、批量任务、Agent 调用这类场景,它可能是目前性价比最高的选项。

评测维度

先说清楚我怎么测的。

5 个维度,每个跑 3 轮取平均值:

  1. 代码生成能力:HumanEval 变体题 + 实际业务场景(写一个带分页的 REST API)
  2. 指令遵循:复杂多步指令(JSON 输出格式约束、角色扮演一致性)
  3. 推理能力:逻辑链推理、数学题、多跳问答
  4. 响应延迟:首 token 时间(TTFT)和完整响应时间,统一测 500 token 输出
  5. 性价比:同等质量输出下的实际花费

参评选手:

  • GPT-5.4 mini(OpenAI 最新轻量版)
  • Claude Sonnet 4.6(Anthropic 中端主力)
  • DeepSeek V3(开源界扛把子)
  • Qwen 3(阿里最新版)
  • GLM-4.7(智谱刚发布的新版)

为什么没拉 GPT-5 和 Claude Opus 4.6?价格差了一个量级,和 mini 级别的模型比不公平。这次对标的都是各家性价比档位的选手。

评测结果天梯图

先上总表,细节后面拆:

维度GPT-5.4 miniClaude Sonnet 4.6DeepSeek V3Qwen 3GLM-4.7
代码生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐½
指令遵循⭐⭐⭐⭐⭐⭐⭐⭐⭐½⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
推理能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐½⭐⭐⭐⭐⭐⭐⭐⭐
响应延迟⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐½⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐⭐⭐⭐½⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐½
综合推荐🥇 S 级🥈 A+ 级🥉 A 级A 级B+ 级

硬数据:

指标GPT-5.4 miniClaude Sonnet 4.6DeepSeek V3Qwen 3GLM-4.7
HumanEval 通过率89.2%90.1%85.7%84.3%79.8%
指令遵循准确率94.6%91.3%87.2%88.1%86.5%
数学推理正确率82.4%88.7%86.1%81.9%80.3%
TTFT(首 token)~180ms~320ms~280ms~210ms~350ms
500 token 总耗时~1.8s~3.2s~2.9s~2.1s~3.5s
输入价格/1M tokens~$0.15~$3.00~$0.27~$0.30~$0.50
输出价格/1M tokens~$0.60~$15.00~$1.10~$1.20~$2.00
上下文窗口128K200K128K128K128K

第一梯队详解

GPT-5.4 mini:速度和性价比

跑完数据我有点震惊。这个 mini 版本在代码生成上几乎追平了 Claude Sonnet 4.6,指令遵循甚至更好。

让我印象最深的是指令遵循。我给了一个很刁钻的 prompt——要求输出严格的嵌套 JSON,字段名必须用 snake_case,数组里的对象按特定字段排序,最外层加一个 metadata 字段。GPT-5.4 mini 三轮全对,Claude Sonnet 4.6 第二轮漏了排序,其他模型多少都有格式问题。

速度方面,180ms 的首 token 时间是这轮测试里最快的,比 Claude Sonnet 4.6 快了将近一倍。做 Agent 链式调用的话,这个延迟差距累积起来很可观。

适用场景:Agent 工具调用、批量数据处理、日常编码辅助、对延迟敏感的实时应用。

Claude Sonnet 4.6:推理深度依然是天花板

综合分 GPT-5.4 mini 更高,但遇到需要深度推理的场景,Claude Sonnet 4.6 还是稳。

我给了一道多跳推理题:从一段 2000 字的需求文档里提取所有隐含的数据库约束条件,然后生成建表 SQL。Claude Sonnet 4.6 不仅把显式约束找全了,还推理出了两个文档里没有直接说但逻辑上必须有的外键关系。GPT-5.4 mini 漏了一个。

槽点是价格。输出 $15/1M tokens,是 GPT-5.4 mini 的 25 倍,日常用起来肉疼。

适用场景:复杂代码重构、架构设计、需要深度理解的文档分析。

第二梯队详解

DeepSeek V3:开源之光,但有短板

价格和 GPT-5.4 mini 一个量级,推理能力甚至更强一点。但代码生成的细节处理差了口气——比如生成 TypeScript 代码时,类型推断偶尔不够精确,需要手动修一下。

另一个问题是高峰期偶尔排队,延迟波动比较大。我测试时有一轮 TTFT 飙到了 800ms,另外两轮正常。

Qwen 3:均衡选手

各项指标均衡,没有明显短板,速度也不错。中文场景下表现尤其好,如果业务主要处理中文内容,Qwen 3 值得重点考虑。

GLM-4.7:潜力股但还需打磨

智谱刚发布的 GLM-4.7,加上 GLM-5 开源的消息,最近热度很高。实测基础能力够用,但复杂指令遵循和代码生成的边界 case 上还有提升空间。考虑到智谱的迭代速度,后续版本值得跟进。

API 调用对比

用 GPT-5.4 mini 写一个带 streaming 的调用示例:

from openai import OpenAI

client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调所有模型
)

# GPT-5.4 mini 调用
response = client.chat.completions.create(
 model="gpt-5.4-mini",
 messages=[
 {"role": "system", "content": "你是一个高级 Python 开发者"},
 {"role": "user", "content": "写一个带分页和缓存的 FastAPI 接口"}
 ],
 stream=True,
 temperature=0.3
)

for chunk in response:
 if chunk.choices[0].delta.content:
 print(chunk.choices[0].delta.content, end="", flush=True)

切换模型只需要改 model 参数,换成 claude-sonnet-4.6deepseek-v3,其他代码一行不用动。这也是我现在偏好用聚合接口的原因——ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5.4 mini、Claude 4.6、DeepSeek V3 等 50+ 模型,兼容 OpenAI SDK,切换模型不用改代码。

调用链路:

graph LR
 A[你的代码] -->|OpenAI SDK| B[ofox.ai 聚合网关]
 B -->|路由分发| C[GPT-5.4 mini]
 B -->|路由分发| D[Claude Sonnet 4.6]
 B -->|路由分发| E[DeepSeek V3]
 B -->|路由分发| F[Qwen 3]
 B -->|路由分发| G[GLM-4.7]
 style B fill:#f9f,stroke:#333,stroke-width:2px

不同需求怎么选

日常编码 + Agent 调用 → GPT-5.4 mini 速度快、便宜、指令遵循好。批量跑任务的时候成本优势太明显了。

复杂推理 + 架构设计 → Claude Sonnet 4.6 贵是贵,但关键时刻靠得住。我现在的策略是日常用 mini,遇到硬骨头切 Claude。

预算极度敏感 → DeepSeek V3 / Qwen 3 够用就行的场景完全 hold 住。

中文内容处理 → Qwen 3 中文理解和生成的细腻程度确实有优势。

使用场景首选模型备选模型月成本估算(日均 1 万次调用)
Agent 工具调用GPT-5.4 miniDeepSeek V3¥200-400
代码生成辅助GPT-5.4 miniClaude Sonnet 4.6¥300-500
复杂文档分析Claude Sonnet 4.6DeepSeek V3¥3000-5000
批量数据清洗DeepSeek V3GPT-5.4 mini¥150-300
中文内容生成Qwen 3GLM-4.7¥250-400

小结

GPT-5.4 mini 是 2026 年到目前为止我用过性价比最高的模型。OpenAI 这次的策略很清楚——用极低的价格抢占 Agent 和批量调用市场。对独立开发者和小团队来说,这个价格意味着很多之前因为成本不敢做的功能现在可以放心上了。

不过别神话它,深度推理和复杂长文本分析上,Claude Sonnet 4.6 依然是更好的选择。我现在的工作流是 GPT-5.4 mini 打底、Claude 打硬仗,月成本比之前纯用 Claude 降了 60% 左右。

如果你也在纠结选哪个,建议先拿自己的真实业务 prompt 跑一遍,别光看 benchmark。每个人的场景不一样,测自己的才算数。