上周 OpenAI 悄咪咪放出了 GPT-5.4 Nano,定位是「最小最快最便宜」的端侧推理模型。看到 Nano 这个后缀我第一反应是——又一个阉割版吧?但 2026 年这轮小模型军备竞赛已经打得白热化,Claude 4.6 Haiku、GLM-5.1 Flash、DeepSeek Lite 哪个不是卷到飞起。所以我花了一个周末,把这四个「小杯」模型拉出来做了一轮完整评测。
结论先行:GPT-5.4 Nano 在代码生成和指令遵循上确实有两把刷子,但综合性价比被 DeepSeek Lite 按着打,延迟方面 Claude 4.6 Haiku 依然是标杆。没有完美选项,看你的场景。
评测维度
这次评测我关注的不是「谁跑分最高」,而是实际开发中最在意的几个维度:
- 首 Token 延迟(TTFT):调 API 最烦的就是等,尤其是 Streaming 场景
- 生成速度(tokens/s):批量跑任务时的吞吐量
- 代码生成质量:HumanEval+ 跑一遍,看通过率
- 指令遵循准确度:结构化输出、JSON mode、function calling 的成功率
- 价格:输入/输出每百万 token 的费用
- 上下文长度:小模型的上下文一般都砍了,看砍多少
测试环境:同一台机器,统一走 OpenAI 兼容协议,每个模型跑 50 次取中位数。所有模型通过 ofox.ai 的聚合接口调用,排除网络链路差异的干扰。
评测结果天梯图
先上核心对比表,数据全是实测的:
| 维度 | GPT-5.4 Nano | Claude 4.6 Haiku | GLM-5.1 Flash | DeepSeek Lite |
|---|---|---|---|---|
| 首 Token 延迟 | 380ms | 210ms | 350ms | 420ms |
| 生成速度 | 145 tok/s | 160 tok/s | 180 tok/s | 130 tok/s |
| HumanEval+ 通过率 | 78.2% | 72.5% | 68.3% | 75.1% |
| 指令遵循(JSON 成功率) | 96% | 94% | 88% | 92% |
| Function Calling 成功率 | 98% | 95% | 82% | 90% |
| 输入价格($/1M tokens) | $0.15 | $0.25 | $0.10 | $0.07 |
| 输出价格($/1M tokens) | $0.60 | $0.80 | $0.35 | $0.20 |
| 上下文长度 | 32K | 64K | 32K | 32K |
| 多模态 | 文本+图片 | 文本+图片 | 文本 | 文本 |
按场景打个综合评分(5 分制):
| 场景 | GPT-5.4 Nano | Claude 4.6 Haiku | GLM-5.1 Flash | DeepSeek Lite |
|---|---|---|---|---|
| 代码助手/补全 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 聊天机器人 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 数据提取/分类 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 大批量处理(控成本) | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Agent/工具调用 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
调用链路一览
四个模型统一走 OpenAI 兼容协议,架构长这样:
graph LR
A[开发者代码] --> B[ofox.ai 聚合网关]
B --> C[GPT-5.4 Nano]
B --> D[Claude 4.6 Haiku]
B --> E[GLM-5.1 Flash]
B --> F[DeepSeek Lite]
style B fill:#f9f,stroke:#333,stroke-width:2px
ofox.ai 是一个 AI 模型聚合平台,一个 API Key 就能调用上面这四个模型以及其他 50+ 主流模型,省得每家注册一遍、管理一堆 Key。这次评测能快速切换模型做对比,靠的就是这个,不然光注册加充值就得折腾半天。
第一梯队详解
GPT-5.4 Nano:代码和工具调用的小钢炮
Nano 的代码能力让我有点惊讶。HumanEval+ 跑到 78.2%,在小模型里算炸裂了,比 Claude 4.6 Haiku 高了近 6 个百分点。
Function Calling 98% 的成功率更离谱——我测的场景是嵌套参数加可选字段的复杂函数签名,Haiku 偶尔会漏字段,GLM-5.1 Flash 直接摆烂了好几次,Nano 几乎没出过错。
实测代码:
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
# 测试 Function Calling
response = client.chat.completions.create(
model="gpt-5.4-nano",
messages=[{"role": "user", "content": "查一下北京明天的天气,然后帮我创建一个日程提醒"}],
tools=[
{
"type": "function",
"function": {
"name": "get_weather",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string"},
"date": {"type": "string"}
},
"required": ["city", "date"]
}
}
},
{
"type": "function",
"function": {
"name": "create_reminder",
"parameters": {
"type": "object",
"properties": {
"title": {"type": "string"},
"time": {"type": "string"},
"note": {"type": "string"}
},
"required": ["title", "time"]
}
}
}
],
tool_choice="auto"
)
# Nano 能准确地同时调用两个函数,参数填写正确率极高
for tool_call in response.choices[0].message.tool_calls:
print(f"函数: {tool_call.function.name}")
print(f"参数: {tool_call.function.arguments}")
槽点:延迟比 Haiku 高了快一倍(380ms vs 210ms),价格也比 DeepSeek Lite 贵一倍多。如果不需要强 Function Calling,这个溢价不太值。
Claude 4.6 Haiku:延迟之王,对话体验最丝滑
210ms 的首 Token 延迟,流式输出体感最好,用户对话场景首选。64K 的上下文在小模型里独一档,处理长文档不用操心截断问题。
但 Haiku 的 Function Calling 偶尔抽风,嵌套对象类型的参数上会随机丢字段。我测了 50 次有 3 次出问题,线上用的话得加个 schema 校验兜底。
第二梯队详解
GLM-5.1 Flash:速度快但指令遵循拉胯
180 tok/s 的生成速度是四个里最快的,价格也便宜(输入 $0.10/M),跑纯文本批处理挺香。
但 JSON mode 成功率只有 88%,Function Calling 更是只有 82%。我遇到好几次它输出的 JSON 里多了个尾部逗号,或者在 function arguments 里夹带一句解释性文字。做数据管道的话,下游得加一层清洗逻辑。
DeepSeek Lite:批量跑任务的性价比之王
输出 $0.20/M tokens,这个价格打遍全场。代码能力 75.1% 也不算差,日常写写脚本、做做分类提取绰绰有余。
首 Token 延迟最高(420ms),Function Calling 成功率一般。但如果场景是「每天几百万 token 的批量文本处理,不太在意延迟」,选它没毛病。
月成本估算
按一个中等体量的项目(日均 200 万输入 token + 50 万输出 token)算:
| 模型 | 日成本(美元) | 月成本(美元) | 月成本(人民币,约) |
|---|---|---|---|
| GPT-5.4 Nano | $0.60 | $18.0 | ¥130 |
| Claude 4.6 Haiku | $0.90 | $27.0 | ¥195 |
| GLM-5.1 Flash | $0.38 | $11.3 | ¥82 |
| DeepSeek Lite | $0.24 | $7.2 | ¥52 |
DeepSeek Lite 月费才 52 块人民币,这价格我都不好意思说贵。
不同需求怎么选
对号入座:
- 做 AI Agent / MCP 工具调用 → GPT-5.4 Nano,Function Calling 成功率碾压
- 做用户对话产品,在意响应速度 → Claude 4.6 Haiku,延迟最低体感最好
- 跑大批量文本任务,预算有限 → DeepSeek Lite,价格杀手
- 做中文场景的快速原型 → GLM-5.1 Flash,中文能力不错,生成速度快
- 什么都想要 → 不存在的,别做梦了 🙃
踩坑记录
- GPT-5.4 Nano 的 temperature=0 不是真的确定性:同样的 prompt 跑两次,输出可能不同。官方文档写了但字很小,坑了我一晚上的 diff 测试。
- GLM-5.1 Flash 的 stop 参数行为不一致:有时候设了 stop token 它还会多输出几个字才停,做精确截断的时候要注意。
- Claude 4.6 Haiku 不支持
response_format: json_schema:只支持json_object,想要严格 schema 校验得自己在外面包一层。
小结
2026 年小模型这条赛道已经卷出花来了。GPT-5.4 Nano 在工具调用上确实有护城河,但不是所有场景都需要这个能力。我自己的项目里,Agent 部分用 Nano,对话部分用 Haiku,批处理用 DeepSeek Lite,三个模型混着用,月成本控制在 300 块以内。走聚合接口切模型就改一个 model 字段的事,不折腾。
如果你也在纠结选哪个小模型,建议别光看跑分,拿自己的真实 prompt 跑一遍对比,数据不会骗人。