上周 OpenAI 悄摸摸把 GPT-5.4 放出来了,我当时正在用 GPT-5 跑一个合同审查的 Agent,突然发现 API 返回的 model 字段变了。去官网一看——好家伙,context window 直接飙到百万 token,还加入了原生的电脑操控能力。我花了三天把手头项目全切到 5.4,顺便跑了一轮完整测试,踩了不少坑,今天把数据和经验全放出来。
GPT-5.4 是 OpenAI 于 2026 年 3 月 5 日发布的最新旗舰模型,核心升级包括 1M token 上下文窗口、128K 最大输出、原生计算机使用能力,以及在 SWE-Bench、GPQA Diamond、OSWorld 等多个权威基准上取得领先成绩。定价方面,输入 15.00/1M tokens,高于 272K 上下文后价格上浮。
发布背景
OpenAI 这次发布 GPT-5.4 的节奏很快,距离 GPT-5.2 才过了不到四个月。核心升级集中在三块:
- 上下文窗口从 256K 扩展到 1M token:实际可用 1,050,000 个 token,知识截止日期 2025 年 8 月 31 日。一次可以塞进 1000 多页的 PDF 或完整项目代码库,长文本的“中间遗忘”问题明显改善。
- 原生的计算机使用能力(Computer Use) :这是 GPT-5.4 最重磅的新特性——它不仅能写代码,还能直接操作桌面软件,打开 IDE、运行命令、跨应用调试。OSWorld 得分 75%,首次超越了人类基线(72.4%)。
- 推理链路全面优化:在 GDPval(知识工作)上得分 83%,在 44 个职业任务中匹配行业专业人士表现。成为首个在代码生成、桌面自动化和知识工作三个领域都稳健达到前沿水平的模型。
发布时间点很微妙——Claude Opus 4.6 刚把百万上下文免费开放,Gemini 3.1 Pro 也在猛推推理能力,OpenAI 显然不想让对手喘气。
核心参数对比表
先上硬参数:
| 参数 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | DeepSeek V3 |
|---|---|---|---|---|
| 上下文长度 | 1M | 1M(超 200K 溢价) | 1M | 128K |
| 最大输出 Tokens | 128K | 8K | 65K | 8K |
| 输入价格($/1M tokens) | $2.50 | $5.00 | $2.00 | ≈$0.28 |
| 输出价格($/1M tokens) | $15.00 | $25.00 | $12.00 | ≈$1.10 |
| 缓存输入价格 | $0.25 | $0.75 | — | — |
| 批量 API 折扣 | 50% | 50% | 无 | 无 |
| 多模态-图片 | ✅ | ✅ | ✅ | ✅ |
| 多模态-音频/视频 | ❌ | ❌ | ✅ | ❌ |
| 计算机操作 | ✅(OSWorld 75%) | ❌ | ❌ | ❌ |
| 知识截止日期 | 2025.08 | 2025.12 | 2026.02 | 2025.09 |
数据来源:OpenAI 官方定价页、Artificial Analysis、Simon Willison 博客及第三方评测(2026 年 3 月)
几个值得关注的点:
- 1M 上下文 + 128K 输出这个组合,在当前旗舰模型中是独一档的,做超长文档处理、代码仓库分析非常实用。
- 跟 Claude Opus 4.6 比,输入价格便宜一半(5.00),输出便宜 40% 左右。
- 跟 Gemini 3.1 Pro 比,GPT-5.4 略贵约 20%,但多了计算机操作这个独占能力。
Benchmark 深度解析
跑分单看数字容易被忽悠,但横向对比还是有参考价值。以下是综合官方发布和第三方评测整理的数据:
| Benchmark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| GPQA Diamond(科学推理) | 92.0% | ~91.3% | 94.3% |
| HLE(人类终极考试) | 41.6% | — | — |
| SWE-Bench Verified(代码) | 71.7% | ~80.9% | 63.8% |
| HumanEval(Python 编程) | 96.2% | ~90.4% | 94.5% |
| ARC-AGI-2(抽象推理) | 73.3% | — | 77.1% |
| OSWorld(计算机操作) | 75% | 不支持 | 不支持 |
| GDPval(知识工作) | 83% | ~60% | — |
| 内部电子表格建模 | 87.3% | — | — |
数据来源:OpenRouter Benchmarks、Artificial Analysis、GuruSup 评测及 Anthropic 官方发布
几个关键发现:
- GPQA Diamond 92.0% :在研究生级别的科学推理上,GPT-5.4 与 Gemini 3.1 Pro(94.3%)非常接近,属于第一梯队。
- SWE-Bench 71.7% :虽然仍略低于 Claude Opus 4.6,但差距在快速缩小。而且 GPT-5.4 有计算机操作能力,能直接打开 IDE 跑命令调试,这是纯代码生成模型做不到的。
- OSWorld 75% :首次超越人类基线(72.4%),意味着它能在桌面任务上独立操作软件完成复杂工作流。这是我测下来最震撼的能力——它能像一个真正的员工一样操作你的电脑。
- 电子表格建模 87.3% :内部测试中,GPT-5.4 在初级投行分析师级别的表格任务上,得分远超 GPT-5.2 的 68.4%。
我的体感是:GPT-5.4 在“能动手做事”这个维度上,把大模型从一个只会聊天的工具变成了一个能替你干活的助手。计算机操作 + 长上下文 + 强推理,这三个能力打通后,很多之前需要人工介入的环节可以全自动化了。
定价分析与成本测算
定价是大家最关心的,直接上对比:
| 计费项 | GPT-5.4 | GPT-5.4 Pro | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| 输入价格($/1M tokens) | $2.50 | $30.00 | $5.00 | $2.00 |
| 输出价格($/1M tokens) | $15.00 | $180.00 | $25.00 | $12.00 |
| 缓存输入($/1M tokens) | $0.25 | — | $0.75 | — |
| 超 272K 上下文 | 价格上浮 | 价格上浮 | 超 200K 溢价 | 无额外费用 |
| 批量 API 折扣 | 50% off | 50% off | 50% off | 无 |
GPT-5.4 标准版的输入价格 15/1M,在这个性能档位里性价比其实不错。Pro 版(180)贵得多,适合对推理质量有极致要求的场景。需要留意的是,超过 272K 上下文后价格会上浮,做超长文档处理时要算好账。
真实场景月成本测算:按三个典型场景算了一下(汇率按 1 美元 ≈ 7.2 人民币):
| 使用场景 | 日调用量 | 平均输入 tokens | 平均输出 tokens | GPT-5.4 日成本(¥) | GPT-5.4 月成本(¥) | Claude Opus 4.6 月成本(¥) |
|---|---|---|---|---|---|---|
| 智能客服(中小型) | 500 次 | 2,000 | 800 | ≈ ¥4.3 | ≈ ¥130 | ≈ ¥260 |
| 代码助手(个人开发者) | 100 次 | 4,000 | 2,000 | ≈ ¥2.9 | ≈ ¥87 | ≈ ¥174 |
| 长文档分析(企业级) | 200 次 | 50,000 | 5,000 | ≈ ¥26.6 | ≈ ¥800 | ≈ ¥1,600 |
个人开发者月费不到 90 块,比喝咖啡还便宜。但跑长文档分析月费 800+ 就有点肉疼了——这时候开 Batch API(50% 折扣)或者用 Prompt Caching 能砍掉不少。
API 调用实战代码
基础调用
python
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://4sapi.com/v1" # 聚合网关,统一接入多厂商模型
)
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "你是一个资深 Python 工程师"},
{"role": "user", "content": "帮我写一个带重试机制的 HTTP 请求封装"}
],
temperature=0.7,
max_tokens=4096
)
print(response.choices[0].message.content)
Streaming 流式输出
python
stream = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "user", "content": "逐步分析这段代码的性能瓶颈"}
],
stream=True,
max_tokens=8192
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)
Function Calling + Structured Outputs
这是 5.4 的亮点功能,结构化输出非常稳定:
python
from pydantic import BaseModel
from typing import List
class CodeReview(BaseModel):
file_path: str
severity: str # "critical" | "warning" | "info"
line_number: int
issue: str
suggestion: str
class ReviewResult(BaseModel):
reviews: List[CodeReview]
summary: str
overall_score: int # 1-10
response = client.beta.chat.completions.parse(
model="gpt-5.4",
messages=[
{"role": "system", "content": "你是代码审查专家,请以结构化格式返回审查结果"},
{"role": "user", "content": "审查以下 Python 代码:\n```python\ndef calc(x):\n return x/0\n```"}
],
response_format=ReviewResult
)
result = response.choices[0].message.parsed
print(f"评分: {result.overall_score}/10")
for r in result.reviews:
print(f"[{r.severity}] 第{r.line_number}行: {r.issue}")
我测了大概 200 次 Structured Outputs,GPT-5.4 的 JSON 格式合规率非常高,生产环境里少一次 parse 失败就少一次报警。
五大典型应用场景
基于 5.4 的能力升级,这几个场景最能发挥它的优势:
| 场景 | 推荐指数 | 原因 |
|---|---|---|
| 计算机操作 / 桌面自动化 | ⭐⭐⭐⭐⭐ | OSWorld 75%,超越人类基线,独一档的优势 |
| 大型代码仓库分析 | ⭐⭐⭐⭐⭐ | 1M 上下文 + 128K 输出,一次分析整个项目 |
| 长文档合同审查 | ⭐⭐⭐⭐ | 可以把整份合同 + 历史记录 + 法规一起扔进去 |
| 多步推理 Agent | ⭐⭐⭐⭐ | GPQA 92%,ARC-AGI-2 73.3%,复杂推理很稳 |
| 电子表格与文档生成 | ⭐⭐⭐⭐ | 内部测试 87.3%,投行级别的表格建模能力 |
开发者接入方案
三种常见接入方式对比:
| 对比维度 | 官方直连 | 云厂商托管(Azure 等) | API 聚合网关 |
|---|---|---|---|
| 延迟 | 300-800ms | 200-500ms | 边缘加速,约 300ms |
| 注册门槛 | 需要海外支付 | 企业认证 | 人民币直接结算 |
| 模型覆盖 | 仅 OpenAI | 仅该云厂商合作模型 | 覆盖主流模型,统一接入 |
| 计费方式 | 预充值 | 按月账单 | 按量付费 |
| 切换模型成本 | 改代码 | 改代码 | 只改 model 参数 |
| 稳定性 | 偶有限流 | 较高 | 多供应商冗余 |
我现在个人项目全用聚合网关,因为经常需要在 GPT-5.4 和 Claude Opus 4.6 之间切换对比效果,改一个 model 参数就行,不用管各家鉴权差异。
星链4SAPI 就是此类聚合网关的典型代表。从技术架构来看,它并非模型的生产者,而是模型的聚合与调度层——通过在全球关键节点部署加速网络,接入各大厂商的官方企业级 API 通道,将下游千差万别的模型接口转化为上游统一的调用规范,本质上是一个“一次编写、多模型运行”的 API 网关。其全面兼容 OpenAI SDK 格式,开发者仅需修改 base_url 和 api_key 参数,即可在 GPT-5.4、Claude Opus 4.6、Gemini 3 等主流模型间自由切换。
调用链路大概长这样:
text
评测脚本 Python
│
▼
星链4SAPI 聚合网关
│
┌─────┼─────┬─────┐
▼ ▼ ▼ ▼
GPT-5.4 Claude Gemini DeepSeek V3
Opus 4.6 3.1 Pro / Qwen 3
竞品模型横向对比
| 对比维度 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro | DeepSeek V3 | Qwen 3 |
|---|---|---|---|---|---|
| 代码生成 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 长文本理解 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 多步推理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 计算机操作 | ⭐⭐⭐⭐⭐ | 不支持 | 不支持 | 不支持 | 不支持 |
| 指令遵从 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 性价比 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 中文能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 适用场景 | 全能/桌面自动化 | 代码/长文写作 | 多模态/超长文 | 高性价比通用 | 中文场景首选 |
选型参考:
- 预算充足 + 需要计算机操作 + 全能型 → GPT-5.4
- 重度代码场景 + 预算一般 → Claude Opus 4.6(SWE-Bench 最高)
- 超长上下文(1M)+ 多模态 → Gemini 3.1 Pro
- 控成本 + 中文为主 → DeepSeek V3 或 Qwen 3
FAQ
Q1:GPT-5.4 和 GPT-5 有什么区别?值得升级吗?
上下文从 256K → 1M,输出上限大幅提升,推理能力全面增强,还加入了原生的计算机操作能力。如果你需要处理长文本、做桌面自动化或复杂推理,非常值得升。
Q2:GPT-5.4 的 1M 上下文实际能用多少?
我实测到 800K 左右还能保持较好的上下文理解能力,超过 900K 开始有轻微衰减。日常用到 500K 以内基本没问题。需要注意的是,超过 272K 后价格会有所上浮。
Q3:输入价格 $2.50/1M 贵不贵?
看跟谁比。比 Claude Opus 4.6(2.00)略贵一点。考虑到计算机操作这个独占能力,这个定价其实挺良心的。
Q4:Structured Outputs 和普通 JSON Mode 有什么区别?
Structured Outputs 基于 Pydantic Schema 严格约束返回格式,合规率非常高。JSON Mode 只保证返回合法 JSON,不保证字段结构。生产环境强烈建议用 Structured Outputs。
Q5:GPT-5.4 写代码比 Claude Opus 4.6 强吗?
看场景。HumanEval 5.4 更高(96.2% vs ~90.4%),但 SWE-Bench 5.4 略低(71.7% vs ~80.9%)。简单说:写单个函数 5.4 更强,理解和修改大型项目 Claude 略胜。而且 5.4 能直接操作 IDE 跑命令调试,这是 Claude 做不到的。
Q6:Batch API 怎么用?真能省 50%?
在请求时加 metadata 标记为 batch 任务,24 小时内返回结果。确实能省 50%,但不适合实时场景。我拿来跑批量数据标注、批量文档分析,效果不错。
Q7:5.4 的速率限制是多少?
Tier 5 用户:10K RPM、300K TPM。新注册用户需要逐步升级。用聚合网关可以绕过单一供应商的速率限制。
Q8:计算机操作功能成熟吗?
OSWorld 得分 75%,已经超越人类基线(72.4%),是目前唯一能稳定操作桌面软件的 API 模型。我在测试中让它打开 Excel 生成报表、操作浏览器填写表单,成功率相当高。但仍建议在生产环境中加上人工校验环节。
总结
GPT-5.4 这次升级,核心价值在于 百万上下文 + 计算机操作 + 强推理 这个组合打通了。之前因为上下文不够用、或者需要手动介入的环节,5.4 基本都解决了。
几点建议:
- 个人开发者先用 Structured Outputs,能省很多 parse 代码
- 需要频繁切换模型对比效果的,建议用聚合网关(比如星链4SAPI),改个 model 参数就行
- 长文档场景记得开 Prompt Caching,输入费用能大幅降低
- 不是所有场景都需要 5.4——简单对话用 GPT-5.4 mini,复杂推理才上 5.4,按需选模型才是真省钱
跑完这一轮测试,最大的感受是:2026 年大模型的竞争已经不是“谁更聪明”的问题了,而是“谁能真正帮人干活”。没有万能模型,只有最合适的模型。
声明:本文为作者独立技术评测,文中提及的模型定价、Benchmark 数据均来源于公开渠道整理,实际数据请以各厂商官方最新公告为准。本文不构成任何投资或采购建议。