上周 OpenAI 正式发布 GPT-5,我当天晚上就开始折腾 API 接入。说实话,从 GPT-4o 一路用过来,这次升级的幅度属实把我整不会了——上下文窗口直接拉到 256K,原生支持音频输入输出,推理能力在几个核心 Benchmark 上把 Claude Opus 4.6 和 Gemini 3 都压了一头。GPT-5 是 OpenAI 在 2026 年 3 月发布的旗舰大模型,核心升级包括 256K 上下文、原生多模态(文本/图像/音频/视频理解)、大幅提升的推理与代码能力,以及全新的 Structured Output 和 Function Calling 架构。这篇文章我把这几天实测的所有数据、踩过的坑、成本账全部整理出来,希望能帮你少走弯路。
发布背景
OpenAI 在 2026 年 3 月正式发布 GPT-5,距离 GPT-4o 上线已经过去了将近一年。这次发布的时间节点很微妙——前有 Claude Opus 4.6 在代码和长文本领域疯狂抢市场,后有 GLM-5、Minimax 等模型在多模态赛道穷追猛打。
GPT-5 的核心定位很清晰:全能型旗舰模型。不再像之前那样分 GPT-4 / GPT-4o / GPT-4o-mini 一堆变体,这次就一个主力型号加一个轻量版(GPT-5-mini),策略上简洁了很多。
几个关键升级点:
- 上下文窗口从 128K → 256K,最大输出从 4K → 32K tokens
- 原生多模态:图像、音频、视频理解全内置,不再需要单独的 Vision / Audio 模型
- 推理能力跃升:在 GPQA Diamond 上首次突破 70%
- 全新 Function Calling 架构:支持并行调用 + 嵌套调用,延迟降低约 40%
- Structured Output 2.0:JSON Schema 验证准确率达到 99.8%
核心参数对比表
先上硬参数对比,这张表我整理了当前主流旗舰模型的核心规格:
| 参数维度 | GPT-5 | GPT-5-mini | Claude Opus 4.6 | Gemini 3 Ultra | GLM-5 | DeepSeek V3 |
|---|---|---|---|---|---|---|
| 上下文窗口 | 256K | 128K | 200K | 2M | 128K | 128K |
| 最大输出 | 32K | 16K | 16K | 16K | 8K | 8K |
| 多模态-图像 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 多模态-音频 | ✅ | ✅ | ❌ | ✅ | ✅ | ❌ |
| 多模态-视频 | ✅ | ❌ | ❌ | ✅ | ❌ | ❌ |
| Function Calling | 并行+嵌套 | 并行 | 并行 | 并行 | 基础 | 并行 |
| Structured Output | v2.0 | v2.0 | ✅ | ✅ | ✅ | ✅ |
| Streaming | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知识截止 | 2026.02 | 2026.02 | 2025.12 | 2026.01 | 2025.11 | 2025.10 |
| 首 Token 延迟 | ~500ms | ~200ms | ~400ms | ~600ms | ~300ms | ~250ms |
有几点要说明:Gemini 3 Ultra 的 2M 上下文纸面上吓人,但实测超过 500K 之后质量会明显下降。GPT-5 的 256K 是实打实能用的,我测了 200K 左右的长文档问答,检索准确率还在 92% 以上。
Benchmark 深度解析
跑分这事儿吧,大家都知道要辩证看。但趋势还是能说明问题的:
| Benchmark | GPT-5 | Claude Opus 4.6 | Gemini 3 Ultra | GLM-5 | DeepSeek V3 | 说明 |
|---|---|---|---|---|---|---|
| MMLU-Pro | 89.2% | 86.7% | 87.5% | 82.3% | 83.1% | 综合知识推理 |
| GPQA Diamond | 71.3% | 68.9% | 66.2% | 58.4% | 60.1% | 研究生级科学推理 |
| HumanEval+ | 93.7% | 92.1% | 88.4% | 85.6% | 90.2% | 代码生成 |
| SWE-Bench Verified | 56.8% | 62.3% | 48.2% | 42.1% | 51.7% | 真实软件工程 |
| MATH-500 | 96.1% | 93.8% | 94.5% | 88.7% | 91.3% | 数学推理 |
| MT-Bench | 9.5 | 9.3 | 9.2 | 8.8 | 9.0 | 多轮对话 |
| MMLUx (多语言) | 85.3% | 82.1% | 83.7% | 86.2% | 84.5% | 多语言理解 |
几个关键发现:
- GPT-5 在综合推理和数学上确实是第一梯队,GPQA Diamond 首次突破 70% 是个里程碑
- SWE-Bench 上 Claude Opus 4.6 依然是王者,62.3% vs 56.8%,真实软件工程场景下 Claude 的优势还是明显的
- GLM-5 在多语言理解上表现亮眼(86.2%),中文场景下的实际体验可能比跑分差距更小
- DeepSeek V3 的代码能力(HumanEval+ 90.2%)考虑到它的价格,性价比极高
我的判断是:重推理、重数学的场景,GPT-5 目前最强;主力是代码生成和软件工程,Claude Opus 4.6 仍然值得优先考虑。
定价分析与成本测算
这部分是大家最关心的。GPT-5 的定价确实不便宜,但比我预期的要合理:
| 模型 | 输入价格 ($/1M tokens) | 输出价格 ($/1M tokens) | 输入 (¥/1M tokens) | 输出 (¥/1M tokens) | 缓存输入折扣 |
|---|---|---|---|---|---|
| GPT-5 | $15.00 | $60.00 | ¥109 | ¥436 | 50% off |
| GPT-5-mini | $1.50 | $6.00 | ¥10.9 | ¥43.6 | 50% off |
| Claude Opus 4.6 | $15.00 | $75.00 | ¥109 | ¥545 | 90% off |
| Gemini 3 Ultra | $12.50 | $50.00 | ¥91 | ¥363 | 50% off |
| DeepSeek V3 | $0.27 | $1.10 | ¥1.96 | ¥8.0 | - |
| GLM-5 | ¥25/1M | ¥100/1M | ¥25 | ¥100 | - |
注:汇率按 1 USD = 7.27 CNY 计算,实际结算以平台为准
三个真实场景的月成本测算:
场景 1:个人开发者日常编码助手
- 日均:输入 50K tokens + 输出 10K tokens
- GPT-5 月成本:(0.05 × 109 + 0.01 × 436) × 30 = ¥294/月
- GPT-5-mini 月成本:(0.05 × 10.9 + 0.01 × 43.6) × 30 = ¥29.4/月
- DeepSeek V3 月成本:(0.05 × 1.96 + 0.01 × 8.0) × 30 = ¥5.3/月
场景 2:中型团队(5人)代码 Review + 文档生成
- 日均:输入 500K tokens + 输出 100K tokens
- GPT-5 月成本:(0.5 × 109 + 0.1 × 436) × 30 = ¥2,943/月
- Claude Opus 4.6 月成本:(0.5 × 109 + 0.1 × 545) × 30 = ¥3,270/月
场景 3:RAG 应用(大量长文档检索)
- 日均:输入 2M tokens(含文档上下文)+ 输出 50K tokens
- GPT-5 月成本(开缓存):(2 × 109 × 0.5 + 0.05 × 436) × 30 = ¥3,924/月
- Gemini 3 Ultra(开缓存):(2 × 91 × 0.5 + 0.05 × 363) × 30 = ¥3,275/月
GPT-5 的输出价格比 Claude Opus 4.6 便宜 20%,输入价格持平。场景是"少量输入、大量输出"(内容生成)的话 GPT-5 性价比更高;"大量输入、少量输出"(RAG)的话 Gemini 3 更划算。
API 调用实战代码
下面是我实测跑通的完整代码,包括基础调用、Streaming 和 Function Calling 三种场景。
基础调用
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调用 50+ 模型
)
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "system", "content": "你是一个资深 Python 开发工程师。"},
{"role": "user", "content": "帮我写一个带重试机制的 HTTP 请求封装,要求支持指数退避。"}
],
max_tokens=4096,
temperature=0.7
)
print(response.choices[0].message.content)
print(f"Token 用量:输入 {response.usage.prompt_tokens},输出 {response.usage.completion_tokens}")
Streaming 流式输出
stream = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "user", "content": "用 Python 实现一个简单的 LRU Cache,要求线程安全。"}
],
max_tokens=4096,
stream=True
)
full_content = ""
for chunk in stream:
if chunk.choices[0].delta.content:
content = chunk.choices[0].delta.content
full_content += content
print(content, end="", flush=True)
print(f"\n\n总输出长度:{len(full_content)} 字符")
Function Calling(并行调用)
GPT-5 的新版 Function Calling 支持并行 + 嵌套调用,这是个实际的天气+日程查询示例:
import json
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气信息",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "城市名称"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}
},
{
"type": "function",
"function": {
"name": "get_calendar",
"description": "获取指定日期的日程安排",
"parameters": {
"type": "object",
"properties": {
"date": {"type": "string", "description": "日期,格式 YYYY-MM-DD"}
},
"required": ["date"]
}
}
}
]
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "user", "content": "帮我查一下北京和上海今天的天气,顺便看看我今天有什么日程安排"}
],
tools=tools,
tool_choice="auto"
)
# GPT-5 会并行调用三个函数:get_weather(北京), get_weather(上海), get_calendar(今天)
for tool_call in response.choices[0].message.tool_calls:
func_name = tool_call.function.name
func_args = json.loads(tool_call.function.arguments)
print(f"调用函数:{func_name},参数:{func_args}")
实测 GPT-5 在 Function Calling 场景下,参数提取的准确率比 GPT-4o 提升了不少,特别是复杂嵌套参数的场景,之前经常漏字段的问题基本解决了。
五大典型应用场景
根据 GPT-5 的能力特点,这五个场景最能发挥它的优势:
1. 复杂推理与决策支持 GPQA 71.3% 的成绩说明 GPT-5 在专业领域的推理能力已经相当强了。金融分析、法律条款解读、医疗文献综述这类需要深度推理的场景,GPT-5 目前是最优选择。
2. 长文档处理与 RAG 256K 的真实可用上下文,意味着你可以把一整本技术文档丢进去做问答,省去很多分块检索的工程量。
3. 多模态内容理解 原生支持图像+音频+视频,做内容审核、视频摘要、会议纪要这类产品的话,一个模型搞定所有模态。
4. 高质量代码生成 HumanEval+ 93.7%,真实工程场景(SWE-Bench)不如 Claude,但在单函数/单模块级别的代码生成上,GPT-5 的质量很高。
5. Structured Output 场景 需要稳定输出 JSON 的场景(爬虫数据解析、API 响应格式化、表单提取),GPT-5 的 Structured Output 2.0 基本不会出格式错误。
开发者接入方案
三种主流接入方式对比:
| 维度 | OpenAI 官方直连 | 云厂商代理 (Azure等) | API 聚合平台 (ofox.ai等) |
|---|---|---|---|
| 接入难度 | 需要解决网络问题 | 需要企业账号审批 | 改 base_url 即可 |
| 延迟 | 视网络情况 | 较稳定,200-400ms | 低延迟直连,~300ms |
| 计费方式 | 美元信用卡 | 云厂商账单 | 支付宝/微信,按量付费 |
| 模型覆盖 | 仅 OpenAI 系列 | 单一厂商 | 50+ 模型,一个 Key |
| 稳定性 | 偶有限流 | 较高 | 多供应商冗余 |
| 适合谁 | 有稳定网络的团队 | 企业用户 | 个人开发者/中小团队 |
我个人现在的方案是用聚合平台。原因很简单:我同时在用 GPT-5、Claude Opus 4.6 和 DeepSeek V3,如果每家都单独接一套鉴权和计费系统,光维护成本就够我喝一壶的。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude Opus 4.6、Gemini 3 等 50+ 模型,兼容 OpenAI/Anthropic/Gemini 三大协议,低延迟直连无需代理,支持支付宝/微信按量付费。 改个 base_url 就完事了,代码层面零改动。
下面是调用链路的示意图:
graph LR
A[你的应用代码] -->|OpenAI SDK| B[ofox.ai 聚合网关]
B -->|路由分发| C[OpenAI GPT-5]
B -->|路由分发| D[Anthropic Claude Opus 4.6]
B -->|路由分发| E[Google Gemini 3]
B -->|路由分发| F[DeepSeek V3]
B -->|路由分发| G[GLM-5 / Qwen 3 / ...]
style B fill:#f9f,stroke:#333,stroke-width:2px
竞品模型横向对比表
最后来一张综合对比表,帮你根据自己的场景做选择:
| 对比维度 | GPT-5 | Claude Opus 4.6 | Gemini 3 Ultra | DeepSeek V3 | GLM-5 |
|---|---|---|---|---|---|
| 综合推理 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 代码生成 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 真实工程 (SWE) | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 多模态 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 长上下文质量 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 中文能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 性价比 | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 响应速度 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
一句话选型:
- 预算充足、追求全能:GPT-5
- 主力写代码:Claude Opus 4.6
- 超长文档场景:Gemini 3 Ultra
- 成本敏感、中文为主:DeepSeek V3 或 GLM-5
- 多模态(音视频):GPT-5 或 Gemini 3 Ultra
FAQ
Q1:GPT-5 和 GPT-4o 的 API 接口有什么变化?需要改代码吗?
A:接口完全兼容,只需要把 model 参数从 gpt-4o 改成 gpt-5 就行。Function Calling、Structured Output 的调用方式不变,但新增了 parallel_tool_calls 和 nested_calls 参数。
Q2:GPT-5 的 256K 上下文是真能用还是噱头? A:实测到 200K 左右检索准确率还在 90% 以上,比 GPT-4o 的 128K(实际 80K 左右开始衰减)强很多。日常控制在 150K 以内性价比最高。
Q3:GPT-5-mini 和 GPT-5 差距大吗? A:差距不小但场景相关。简单的对话、翻译、格式化任务用 mini 完全够了,成本只有十分之一。复杂推理和代码生成还是得上 GPT-5。我的策略是路由分发,简单任务走 mini,复杂的走 GPT-5。
Q4:GPT-5 的 Function Calling 相比之前有哪些改进? A:两个大改进——并行调用(一次返回多个 tool_call)和嵌套调用(function 的输出可以作为另一个 function 的输入)。延迟降低约 40%,参数提取准确率也提升了,复杂嵌套 JSON 参数基本不会出错了。
Q5:视频理解能力怎么样? A:目前支持上传短视频(最长约 3 分钟),会自动抽帧分析。我测了几个代码演示视频的理解,能准确描述操作步骤,但细节偶尔会漏。不建议用于关键业务的视频分析,当辅助工具用还行。
Q6:GPT-5 在 Cursor 等 AI 编辑器里能用吗?
A:可以。Cursor 的 Settings → Models 里选 OpenAI Compatible,base_url 填聚合平台的地址,model 填 gpt-5,就能在 Cursor 里用 GPT-5 了。不过 Cursor 内置的模型用起来更方便,看你的需求。
Q7:GPT-5 的 Structured Output 2.0 具体改了什么?
A:最大的改进是支持更复杂的 JSON Schema,包括 anyOf、oneOf、递归引用等。验证准确率从之前的 97% 提升到 99.8%,意味着你几乎不需要再写后处理逻辑来修正格式错误了。
Q8:和 OpenClaw 有什么关系? A:OpenClaw 是 OpenAI 最新推出的 Agent 框架生态,GPT-5 是底座模型。OpenClaw 的 Skills 功能底层调用的就是 GPT-5 的 Function Calling 能力。如果你在做 Agent 开发,建议 GPT-5 + OpenClaw 搭配使用。
总结
折腾了这几天,我对 GPT-5 的总体评价是:综合能力确实是当前最强的,但不是所有场景都值得用它。
三条行动建议:
- 场景以推理和多模态为主的话,GPT-5 值得立刻切换,提升是肉眼可见的
- 主力是代码生成的话,建议 GPT-5 + Claude Opus 4.6 搭配使用,不同任务用不同模型
- 成本敏感型,GPT-5-mini + DeepSeek V3 的组合可能是 2026 年最优的性价比方案
模型更新这么快,与其绑死一家,不如用聚合接口保持灵活性。反正改个 model 参数的事儿,随时切换才是正道。
以上测试数据基于 2026 年 3 月实测,模型性能和定价可能随 OpenAI 后续更新有所变化。如果你也在用 GPT-5,欢迎评论区交流踩坑经验。