上周 OpenAI 悄悄放出了 GPT-5.4 mini,定位是 GPT-5 系列的轻量版——更便宜、更快、上下文更长。我第一反应是:又来一个 mini?上次 GPT-4o mini 出来的时候我就觉得「缩水版能打吗」,结果真香了好几个月。这次 GPT-5.4 mini 我花了两天时间,拉了几个同级别模型做了一轮横评,数据跑完说实话有点意外。
GPT-5.4 mini 是 OpenAI 在 2026 年推出的轻量级模型,主打低成本高性价比,代码生成和指令遵循的表现接近 GPT-5 主力版,价格只有其 1/5 左右。日常开发、批量任务、Agent 调用这类场景,它可能是目前性价比最高的选项。
评测维度
先说清楚我怎么测的。
5 个维度,每个跑 3 轮取平均值:
- 代码生成能力:HumanEval 变体题 + 实际业务场景(写一个带分页的 REST API)
- 指令遵循:复杂多步指令(JSON 输出格式约束、角色扮演一致性)
- 推理能力:逻辑链推理、数学题、多跳问答
- 响应延迟:首 token 时间(TTFT)和完整响应时间,统一测 500 token 输出
- 性价比:同等质量输出下的实际花费
参评选手:
- GPT-5.4 mini(OpenAI 最新轻量版)
- Claude Sonnet 4.6(Anthropic 中端主力)
- DeepSeek V3(开源界扛把子)
- Qwen 3(阿里最新版)
- GLM-4.7(智谱刚发布的新版)
为什么没拉 GPT-5 和 Claude Opus 4.6?价格差了一个量级,和 mini 级别的模型比不公平。这次对标的都是各家性价比档位的选手。
评测结果天梯图
先上总表,细节后面拆:
| 维度 | GPT-5.4 mini | Claude Sonnet 4.6 | DeepSeek V3 | Qwen 3 | GLM-4.7 |
|---|---|---|---|---|---|
| 代码生成 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐½ |
| 指令遵循 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐½ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 推理能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐½ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 响应延迟 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐½ | ⭐⭐⭐⭐ |
| 性价比 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐½ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐½ |
| 综合推荐 | 🥇 S 级 | 🥈 A+ 级 | 🥉 A 级 | A 级 | B+ 级 |
硬数据:
| 指标 | GPT-5.4 mini | Claude Sonnet 4.6 | DeepSeek V3 | Qwen 3 | GLM-4.7 |
|---|---|---|---|---|---|
| HumanEval 通过率 | 89.2% | 90.1% | 85.7% | 84.3% | 79.8% |
| 指令遵循准确率 | 94.6% | 91.3% | 87.2% | 88.1% | 86.5% |
| 数学推理正确率 | 82.4% | 88.7% | 86.1% | 81.9% | 80.3% |
| TTFT(首 token) | ~180ms | ~320ms | ~280ms | ~210ms | ~350ms |
| 500 token 总耗时 | ~1.8s | ~3.2s | ~2.9s | ~2.1s | ~3.5s |
| 输入价格/1M tokens | ~$0.15 | ~$3.00 | ~$0.27 | ~$0.30 | ~$0.50 |
| 输出价格/1M tokens | ~$0.60 | ~$15.00 | ~$1.10 | ~$1.20 | ~$2.00 |
| 上下文窗口 | 128K | 200K | 128K | 128K | 128K |
第一梯队详解
GPT-5.4 mini:速度和性价比
跑完数据我有点震惊。这个 mini 版本在代码生成上几乎追平了 Claude Sonnet 4.6,指令遵循甚至更好。
让我印象最深的是指令遵循。我给了一个很刁钻的 prompt——要求输出严格的嵌套 JSON,字段名必须用 snake_case,数组里的对象按特定字段排序,最外层加一个 metadata 字段。GPT-5.4 mini 三轮全对,Claude Sonnet 4.6 第二轮漏了排序,其他模型多少都有格式问题。
速度方面,180ms 的首 token 时间是这轮测试里最快的,比 Claude Sonnet 4.6 快了将近一倍。做 Agent 链式调用的话,这个延迟差距累积起来很可观。
适用场景:Agent 工具调用、批量数据处理、日常编码辅助、对延迟敏感的实时应用。
Claude Sonnet 4.6:推理深度依然是天花板
综合分 GPT-5.4 mini 更高,但遇到需要深度推理的场景,Claude Sonnet 4.6 还是稳。
我给了一道多跳推理题:从一段 2000 字的需求文档里提取所有隐含的数据库约束条件,然后生成建表 SQL。Claude Sonnet 4.6 不仅把显式约束找全了,还推理出了两个文档里没有直接说但逻辑上必须有的外键关系。GPT-5.4 mini 漏了一个。
槽点是价格。输出 $15/1M tokens,是 GPT-5.4 mini 的 25 倍,日常用起来肉疼。
适用场景:复杂代码重构、架构设计、需要深度理解的文档分析。
第二梯队详解
DeepSeek V3:开源之光,但有短板
价格和 GPT-5.4 mini 一个量级,推理能力甚至更强一点。但代码生成的细节处理差了口气——比如生成 TypeScript 代码时,类型推断偶尔不够精确,需要手动修一下。
另一个问题是高峰期偶尔排队,延迟波动比较大。我测试时有一轮 TTFT 飙到了 800ms,另外两轮正常。
Qwen 3:均衡选手
各项指标均衡,没有明显短板,速度也不错。中文场景下表现尤其好,如果业务主要处理中文内容,Qwen 3 值得重点考虑。
GLM-4.7:潜力股但还需打磨
智谱刚发布的 GLM-4.7,加上 GLM-5 开源的消息,最近热度很高。实测基础能力够用,但复杂指令遵循和代码生成的边界 case 上还有提升空间。考虑到智谱的迭代速度,后续版本值得跟进。
API 调用对比
用 GPT-5.4 mini 写一个带 streaming 的调用示例:
from openai import OpenAI
client = OpenAI(
api_key="your-key",
base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调所有模型
)
# GPT-5.4 mini 调用
response = client.chat.completions.create(
model="gpt-5.4-mini",
messages=[
{"role": "system", "content": "你是一个高级 Python 开发者"},
{"role": "user", "content": "写一个带分页和缓存的 FastAPI 接口"}
],
stream=True,
temperature=0.3
)
for chunk in response:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
切换模型只需要改 model 参数,换成 claude-sonnet-4.6 或 deepseek-v3,其他代码一行不用动。这也是我现在偏好用聚合接口的原因——ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5.4 mini、Claude 4.6、DeepSeek V3 等 50+ 模型,兼容 OpenAI SDK,切换模型不用改代码。
调用链路:
graph LR
A[你的代码] -->|OpenAI SDK| B[ofox.ai 聚合网关]
B -->|路由分发| C[GPT-5.4 mini]
B -->|路由分发| D[Claude Sonnet 4.6]
B -->|路由分发| E[DeepSeek V3]
B -->|路由分发| F[Qwen 3]
B -->|路由分发| G[GLM-4.7]
style B fill:#f9f,stroke:#333,stroke-width:2px
不同需求怎么选
日常编码 + Agent 调用 → GPT-5.4 mini 速度快、便宜、指令遵循好。批量跑任务的时候成本优势太明显了。
复杂推理 + 架构设计 → Claude Sonnet 4.6 贵是贵,但关键时刻靠得住。我现在的策略是日常用 mini,遇到硬骨头切 Claude。
预算极度敏感 → DeepSeek V3 / Qwen 3 够用就行的场景完全 hold 住。
中文内容处理 → Qwen 3 中文理解和生成的细腻程度确实有优势。
| 使用场景 | 首选模型 | 备选模型 | 月成本估算(日均 1 万次调用) |
|---|---|---|---|
| Agent 工具调用 | GPT-5.4 mini | DeepSeek V3 | ¥200-400 |
| 代码生成辅助 | GPT-5.4 mini | Claude Sonnet 4.6 | ¥300-500 |
| 复杂文档分析 | Claude Sonnet 4.6 | DeepSeek V3 | ¥3000-5000 |
| 批量数据清洗 | DeepSeek V3 | GPT-5.4 mini | ¥150-300 |
| 中文内容生成 | Qwen 3 | GLM-4.7 | ¥250-400 |
小结
GPT-5.4 mini 是 2026 年到目前为止我用过性价比最高的模型。OpenAI 这次的策略很清楚——用极低的价格抢占 Agent 和批量调用市场。对独立开发者和小团队来说,这个价格意味着很多之前因为成本不敢做的功能现在可以放心上了。
不过别神话它,深度推理和复杂长文本分析上,Claude Sonnet 4.6 依然是更好的选择。我现在的工作流是 GPT-5.4 mini 打底、Claude 打硬仗,月成本比之前纯用 Claude 降了 60% 左右。
如果你也在纠结选哪个,建议先拿自己的真实业务 prompt 跑一遍,别光看 benchmark。每个人的场景不一样,测自己的才算数。