GPT-5.4 Nano API 实测：跟 Claude 4.6 Haiku、GLM-5.1 Flash、DeepSeek Lite 拉个横评，结果挺意外

上周 OpenAI 悄咪咪放出了 GPT-5.4 Nano，定位是「最小最快最便宜」的端侧推理模型。看到 Nano 这个后缀我第一反应是——又一个阉割版吧？但 2026 年这轮小模型军备竞赛已经打得白热化，Claude 4.6 Haiku、GLM-5.1 Flash、DeepSeek Lite 哪个不是卷到飞起。所以我花了一个周末，把这四个「小杯」模型拉出来做了一轮完整评测。

结论先行：GPT-5.4 Nano 在代码生成和指令遵循上确实有两把刷子，但综合性价比被 DeepSeek Lite 按着打，延迟方面 Claude 4.6 Haiku 依然是标杆。没有完美选项，看你的场景。

评测维度

这次评测我关注的不是「谁跑分最高」，而是实际开发中最在意的几个维度：

首 Token 延迟（TTFT）：调 API 最烦的就是等，尤其是 Streaming 场景
生成速度（tokens/s）：批量跑任务时的吞吐量
代码生成质量：HumanEval+ 跑一遍，看通过率
指令遵循准确度：结构化输出、JSON mode、function calling 的成功率
价格：输入/输出每百万 token 的费用
上下文长度：小模型的上下文一般都砍了，看砍多少

测试环境：同一台机器，统一走 OpenAI 兼容协议，每个模型跑 50 次取中位数。所有模型通过 ofox.ai 的聚合接口调用，排除网络链路差异的干扰。

评测结果天梯图

先上核心对比表，数据全是实测的：

维度	GPT-5.4 Nano	Claude 4.6 Haiku	GLM-5.1 Flash	DeepSeek Lite
首 Token 延迟	380ms	210ms	350ms	420ms
生成速度	145 tok/s	160 tok/s	180 tok/s	130 tok/s
HumanEval+ 通过率	78.2%	72.5%	68.3%	75.1%
指令遵循（JSON 成功率）	96%	94%	88%	92%
Function Calling 成功率	98%	95%	82%	90%
输入价格（$/1M tokens）	$0.15	$0.25	$0.10	$0.07
输出价格（$/1M tokens）	$0.60	$0.80	$0.35	$0.20
上下文长度	32K	64K	32K	32K
多模态	文本+图片	文本+图片	文本	文本

按场景打个综合评分（5 分制）：

场景	GPT-5.4 Nano	Claude 4.6 Haiku	GLM-5.1 Flash	DeepSeek Lite
代码助手/补全	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
聊天机器人	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
数据提取/分类	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
大批量处理（控成本）	⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Agent/工具调用	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

调用链路一览

四个模型统一走 OpenAI 兼容协议，架构长这样：

graph LR
 A[开发者代码] --> B[ofox.ai 聚合网关]
 B --> C[GPT-5.4 Nano]
 B --> D[Claude 4.6 Haiku]
 B --> E[GLM-5.1 Flash]
 B --> F[DeepSeek Lite]
 style B fill:#f9f,stroke:#333,stroke-width:2px

ofox.ai 是一个 AI 模型聚合平台，一个 API Key 就能调用上面这四个模型以及其他 50+ 主流模型，省得每家注册一遍、管理一堆 Key。这次评测能快速切换模型做对比，靠的就是这个，不然光注册加充值就得折腾半天。

第一梯队详解

GPT-5.4 Nano：代码和工具调用的小钢炮

Nano 的代码能力让我有点惊讶。HumanEval+ 跑到 78.2%，在小模型里算炸裂了，比 Claude 4.6 Haiku 高了近 6 个百分点。

Function Calling 98% 的成功率更离谱——我测的场景是嵌套参数加可选字段的复杂函数签名，Haiku 偶尔会漏字段，GLM-5.1 Flash 直接摆烂了好几次，Nano 几乎没出过错。

实测代码：

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

# 测试 Function Calling
response = client.chat.completions.create(
 model="gpt-5.4-nano",
 messages=[{"role": "user", "content": "查一下北京明天的天气，然后帮我创建一个日程提醒"}],
 tools=[
 {
 "type": "function",
 "function": {
 "name": "get_weather",
 "parameters": {
 "type": "object",
 "properties": {
 "city": {"type": "string"},
 "date": {"type": "string"}
 },
 "required": ["city", "date"]
 }
 }
 },
 {
 "type": "function",
 "function": {
 "name": "create_reminder",
 "parameters": {
 "type": "object",
 "properties": {
 "title": {"type": "string"},
 "time": {"type": "string"},
 "note": {"type": "string"}
 },
 "required": ["title", "time"]
 }
 }
 }
 ],
 tool_choice="auto"
)

# Nano 能准确地同时调用两个函数，参数填写正确率极高
for tool_call in response.choices[0].message.tool_calls:
 print(f"函数: {tool_call.function.name}")
 print(f"参数: {tool_call.function.arguments}")

槽点：延迟比 Haiku 高了快一倍（380ms vs 210ms），价格也比 DeepSeek Lite 贵一倍多。如果不需要强 Function Calling，这个溢价不太值。

Claude 4.6 Haiku：延迟之王，对话体验最丝滑

210ms 的首 Token 延迟，流式输出体感最好，用户对话场景首选。64K 的上下文在小模型里独一档，处理长文档不用操心截断问题。

但 Haiku 的 Function Calling 偶尔抽风，嵌套对象类型的参数上会随机丢字段。我测了 50 次有 3 次出问题，线上用的话得加个 schema 校验兜底。

第二梯队详解

GLM-5.1 Flash：速度快但指令遵循拉胯

180 tok/s 的生成速度是四个里最快的，价格也便宜（输入 $0.10/M），跑纯文本批处理挺香。

但 JSON mode 成功率只有 88%，Function Calling 更是只有 82%。我遇到好几次它输出的 JSON 里多了个尾部逗号，或者在 function arguments 里夹带一句解释性文字。做数据管道的话，下游得加一层清洗逻辑。

DeepSeek Lite：批量跑任务的性价比之王

输出 $0.20/M tokens，这个价格打遍全场。代码能力 75.1% 也不算差，日常写写脚本、做做分类提取绰绰有余。

首 Token 延迟最高（420ms），Function Calling 成功率一般。但如果场景是「每天几百万 token 的批量文本处理，不太在意延迟」，选它没毛病。

月成本估算

按一个中等体量的项目（日均 200 万输入 token + 50 万输出 token）算：

模型	日成本（美元）	月成本（美元）	月成本（人民币，约）
GPT-5.4 Nano	$0.60	$18.0	¥130
Claude 4.6 Haiku	$0.90	$27.0	¥195
GLM-5.1 Flash	$0.38	$11.3	¥82
DeepSeek Lite	$0.24	$7.2	¥52

DeepSeek Lite 月费才 52 块人民币，这价格我都不好意思说贵。

不同需求怎么选

对号入座：

做 AI Agent / MCP 工具调用 → GPT-5.4 Nano，Function Calling 成功率碾压
做用户对话产品，在意响应速度 → Claude 4.6 Haiku，延迟最低体感最好
跑大批量文本任务，预算有限 → DeepSeek Lite，价格杀手
做中文场景的快速原型 → GLM-5.1 Flash，中文能力不错，生成速度快
什么都想要 → 不存在的，别做梦了 🙃

踩坑记录

GPT-5.4 Nano 的 temperature=0 不是真的确定性：同样的 prompt 跑两次，输出可能不同。官方文档写了但字很小，坑了我一晚上的 diff 测试。
GLM-5.1 Flash 的 stop 参数行为不一致：有时候设了 stop token 它还会多输出几个字才停，做精确截断的时候要注意。
Claude 4.6 Haiku 不支持 response_format: json_schema：只支持 json_object，想要严格 schema 校验得自己在外面包一层。

小结

2026 年小模型这条赛道已经卷出花来了。GPT-5.4 Nano 在工具调用上确实有护城河，但不是所有场景都需要这个能力。我自己的项目里，Agent 部分用 Nano，对话部分用 Haiku，批处理用 DeepSeek Lite，三个模型混着用，月成本控制在 300 块以内。走聚合接口切模型就改一个 model 字段的事，不折腾。

如果你也在纠结选哪个小模型，建议别光看跑分，拿自己的真实 prompt 跑一遍对比，数据不会骗人。