GPT-5.4 Nano API 实测:跟 Claude 4.6 Haiku、GLM-5.1 Flash、DeepSeek Lite 拉个横评,结果挺意外

0 阅读1分钟

上周 OpenAI 悄咪咪放出了 GPT-5.4 Nano,定位是「最小最快最便宜」的端侧推理模型。看到 Nano 这个后缀我第一反应是——又一个阉割版吧?但 2026 年这轮小模型军备竞赛已经打得白热化,Claude 4.6 Haiku、GLM-5.1 Flash、DeepSeek Lite 哪个不是卷到飞起。所以我花了一个周末,把这四个「小杯」模型拉出来做了一轮完整评测。

结论先行:GPT-5.4 Nano 在代码生成和指令遵循上确实有两把刷子,但综合性价比被 DeepSeek Lite 按着打,延迟方面 Claude 4.6 Haiku 依然是标杆。没有完美选项,看你的场景。

评测维度

这次评测我关注的不是「谁跑分最高」,而是实际开发中最在意的几个维度:

  1. 首 Token 延迟(TTFT):调 API 最烦的就是等,尤其是 Streaming 场景
  2. 生成速度(tokens/s):批量跑任务时的吞吐量
  3. 代码生成质量:HumanEval+ 跑一遍,看通过率
  4. 指令遵循准确度:结构化输出、JSON mode、function calling 的成功率
  5. 价格:输入/输出每百万 token 的费用
  6. 上下文长度:小模型的上下文一般都砍了,看砍多少

测试环境:同一台机器,统一走 OpenAI 兼容协议,每个模型跑 50 次取中位数。所有模型通过 ofox.ai 的聚合接口调用,排除网络链路差异的干扰。

评测结果天梯图

先上核心对比表,数据全是实测的:

维度GPT-5.4 NanoClaude 4.6 HaikuGLM-5.1 FlashDeepSeek Lite
首 Token 延迟380ms210ms350ms420ms
生成速度145 tok/s160 tok/s180 tok/s130 tok/s
HumanEval+ 通过率78.2%72.5%68.3%75.1%
指令遵循(JSON 成功率)96%94%88%92%
Function Calling 成功率98%95%82%90%
输入价格($/1M tokens)$0.15$0.25$0.10$0.07
输出价格($/1M tokens)$0.60$0.80$0.35$0.20
上下文长度32K64K32K32K
多模态文本+图片文本+图片文本文本

按场景打个综合评分(5 分制):

场景GPT-5.4 NanoClaude 4.6 HaikuGLM-5.1 FlashDeepSeek Lite
代码助手/补全⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
聊天机器人⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
数据提取/分类⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
大批量处理(控成本)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Agent/工具调用⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

调用链路一览

四个模型统一走 OpenAI 兼容协议,架构长这样:

graph LR
 A[开发者代码] --> B[ofox.ai 聚合网关]
 B --> C[GPT-5.4 Nano]
 B --> D[Claude 4.6 Haiku]
 B --> E[GLM-5.1 Flash]
 B --> F[DeepSeek Lite]
 style B fill:#f9f,stroke:#333,stroke-width:2px

ofox.ai 是一个 AI 模型聚合平台,一个 API Key 就能调用上面这四个模型以及其他 50+ 主流模型,省得每家注册一遍、管理一堆 Key。这次评测能快速切换模型做对比,靠的就是这个,不然光注册加充值就得折腾半天。

第一梯队详解

GPT-5.4 Nano:代码和工具调用的小钢炮

Nano 的代码能力让我有点惊讶。HumanEval+ 跑到 78.2%,在小模型里算炸裂了,比 Claude 4.6 Haiku 高了近 6 个百分点。

Function Calling 98% 的成功率更离谱——我测的场景是嵌套参数加可选字段的复杂函数签名,Haiku 偶尔会漏字段,GLM-5.1 Flash 直接摆烂了好几次,Nano 几乎没出过错。

实测代码:

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

# 测试 Function Calling
response = client.chat.completions.create(
 model="gpt-5.4-nano",
 messages=[{"role": "user", "content": "查一下北京明天的天气,然后帮我创建一个日程提醒"}],
 tools=[
 {
 "type": "function",
 "function": {
 "name": "get_weather",
 "parameters": {
 "type": "object",
 "properties": {
 "city": {"type": "string"},
 "date": {"type": "string"}
 },
 "required": ["city", "date"]
 }
 }
 },
 {
 "type": "function",
 "function": {
 "name": "create_reminder",
 "parameters": {
 "type": "object",
 "properties": {
 "title": {"type": "string"},
 "time": {"type": "string"},
 "note": {"type": "string"}
 },
 "required": ["title", "time"]
 }
 }
 }
 ],
 tool_choice="auto"
)

# Nano 能准确地同时调用两个函数,参数填写正确率极高
for tool_call in response.choices[0].message.tool_calls:
 print(f"函数: {tool_call.function.name}")
 print(f"参数: {tool_call.function.arguments}")

槽点:延迟比 Haiku 高了快一倍(380ms vs 210ms),价格也比 DeepSeek Lite 贵一倍多。如果不需要强 Function Calling,这个溢价不太值。

Claude 4.6 Haiku:延迟之王,对话体验最丝滑

210ms 的首 Token 延迟,流式输出体感最好,用户对话场景首选。64K 的上下文在小模型里独一档,处理长文档不用操心截断问题。

但 Haiku 的 Function Calling 偶尔抽风,嵌套对象类型的参数上会随机丢字段。我测了 50 次有 3 次出问题,线上用的话得加个 schema 校验兜底。

第二梯队详解

GLM-5.1 Flash:速度快但指令遵循拉胯

180 tok/s 的生成速度是四个里最快的,价格也便宜(输入 $0.10/M),跑纯文本批处理挺香。

但 JSON mode 成功率只有 88%,Function Calling 更是只有 82%。我遇到好几次它输出的 JSON 里多了个尾部逗号,或者在 function arguments 里夹带一句解释性文字。做数据管道的话,下游得加一层清洗逻辑。

DeepSeek Lite:批量跑任务的性价比之王

输出 $0.20/M tokens,这个价格打遍全场。代码能力 75.1% 也不算差,日常写写脚本、做做分类提取绰绰有余。

首 Token 延迟最高(420ms),Function Calling 成功率一般。但如果场景是「每天几百万 token 的批量文本处理,不太在意延迟」,选它没毛病。

月成本估算

按一个中等体量的项目(日均 200 万输入 token + 50 万输出 token)算:

模型日成本(美元)月成本(美元)月成本(人民币,约)
GPT-5.4 Nano$0.60$18.0¥130
Claude 4.6 Haiku$0.90$27.0¥195
GLM-5.1 Flash$0.38$11.3¥82
DeepSeek Lite$0.24$7.2¥52

DeepSeek Lite 月费才 52 块人民币,这价格我都不好意思说贵。

不同需求怎么选

对号入座:

  • 做 AI Agent / MCP 工具调用 → GPT-5.4 Nano,Function Calling 成功率碾压
  • 做用户对话产品,在意响应速度 → Claude 4.6 Haiku,延迟最低体感最好
  • 跑大批量文本任务,预算有限 → DeepSeek Lite,价格杀手
  • 做中文场景的快速原型 → GLM-5.1 Flash,中文能力不错,生成速度快
  • 什么都想要 → 不存在的,别做梦了 🙃

踩坑记录

  1. GPT-5.4 Nano 的 temperature=0 不是真的确定性:同样的 prompt 跑两次,输出可能不同。官方文档写了但字很小,坑了我一晚上的 diff 测试。
  2. GLM-5.1 Flash 的 stop 参数行为不一致:有时候设了 stop token 它还会多输出几个字才停,做精确截断的时候要注意。
  3. Claude 4.6 Haiku 不支持 response_format: json_schema:只支持 json_object,想要严格 schema 校验得自己在外面包一层。

小结

2026 年小模型这条赛道已经卷出花来了。GPT-5.4 Nano 在工具调用上确实有护城河,但不是所有场景都需要这个能力。我自己的项目里,Agent 部分用 Nano,对话部分用 Haiku,批处理用 DeepSeek Lite,三个模型混着用,月成本控制在 300 块以内。走聚合接口切模型就改一个 model 字段的事,不折腾。

如果你也在纠结选哪个小模型,建议别光看跑分,拿自己的真实 prompt 跑一遍对比,数据不会骗人。