GPT-5.4 深度解读:1M 上下文、OS World 超人类、定价与真实性能

7 阅读2分钟

OpenAI 今天发布了 GPT-5.4,HN 636 分。这不是一个简单的版本升级——它同时推出了 GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro 和 GPT-5.3 Instant 四个模型,外加 Codex Fast Mode。信息量很大,逐一拆解。

定价:标准版亲民,Pro 版昂贵

先说大家最关心的:

模型输入 ($/M tokens)输出 ($/M tokens)
GPT-5.4$2.50$15.00
GPT-5.4 Pro$30.00$180.00

GPT-5.4 标准版的定价比想象中低——2.5/2.5/15 的水平跟 Claude Sonnet 4.5 基本持平。但 Pro 版直接飙到 30/30/180,输出价格是标准版的 12 倍。

超长上下文加价:1.05M 上下文窗口中,超过 272K token 的部分按 2x 输入 + 1.5x 输出计费。

1M 上下文窗口:标称 vs 实际

这是头条功能。当 Claude 还在 200K、Gemini 在 1M(但实际表现存疑)的时候,GPT-5.4 宣称 1.05M token 上下文。

但 HN 社区的反馈很冷静:

"1 million tokens is great until you notice the long context scores fall off a cliff past 256K and the rest is basically vibes and auto compacting."

超过 256K 后性能显著下降。标称窗口和有效窗口是两回事。

Benchmark:亮点与隐忧并存

亮点:

  • OS World 75%,超越人类基线 72%
  • NYT Connections:extra high 94.0(5.2 是 88.6),medium 92.0(5.2 是 71.4)
  • SWE-Bench Pro:从 55.6 提升到 57.7

隐忧:

  • Terminal Bench 2.0 退步:75.1% vs GPT-5.3 的 77.3%
  • Thinking 模式部分场景退步
  • No reasoning 模式分数仍然低

Computer Use:进入实用阶段?

GPT-5.4 能截图理解浏览器界面、通过坐标点击与 UI 元素交互、完成发邮件和日程安排等端到端任务。

不过通过截图+坐标点击来操作 UI 可能不是正确方向——相比原生 API 调用,效率低且脆弱。

安全:首个网络安全高能力缓解模型

这是 OpenAI 首个针对"网络安全高能力"实施缓解措施的通用模型。

我的判断

GPT-5.4 的 1M 上下文和 Computer Use 能力确实让人兴奋,但 benchmark 的退步和 Thinking 模式的不稳定性也值得警惕。

对开发者来说,"用对的模型做对的事"比"用最新的模型做所有事"更重要。


"The real question isn't how many tokens your model can see—it's how many it actually understands."


🚀 想在一个平台上对比 GPT-5.4、Claude Opus 4.6、Gemini 3.1 的效果?试试 OfoxAI(ofox.ai)— 一个账号搞定所有主流 AI 模型。