GPT-5 API 完全指南:性能实测、成本测算与接入方案(2026)

13 阅读1分钟

上周 OpenAI 正式发布 GPT-5,我当天晚上就开始折腾 API 接入。说实话,从 GPT-4o 一路用过来,这次升级的幅度属实把我整不会了——上下文窗口直接拉到 256K,原生支持音频输入输出,推理能力在几个核心 Benchmark 上把 Claude Opus 4.6 和 Gemini 3 都压了一头。GPT-5 是 OpenAI 在 2026 年 3 月发布的旗舰大模型,核心升级包括 256K 上下文、原生多模态(文本/图像/音频/视频理解)、大幅提升的推理与代码能力,以及全新的 Structured Output 和 Function Calling 架构。这篇文章我把这几天实测的所有数据、踩过的坑、成本账全部整理出来,希望能帮你少走弯路。

发布背景

OpenAI 在 2026 年 3 月正式发布 GPT-5,距离 GPT-4o 上线已经过去了将近一年。这次发布的时间节点很微妙——前有 Claude Opus 4.6 在代码和长文本领域疯狂抢市场,后有 GLM-5、Minimax 等模型在多模态赛道穷追猛打。

GPT-5 的核心定位很清晰:全能型旗舰模型。不再像之前那样分 GPT-4 / GPT-4o / GPT-4o-mini 一堆变体,这次就一个主力型号加一个轻量版(GPT-5-mini),策略上简洁了很多。

几个关键升级点:

  1. 上下文窗口从 128K → 256K,最大输出从 4K → 32K tokens
  2. 原生多模态:图像、音频、视频理解全内置,不再需要单独的 Vision / Audio 模型
  3. 推理能力跃升:在 GPQA Diamond 上首次突破 70%
  4. 全新 Function Calling 架构:支持并行调用 + 嵌套调用,延迟降低约 40%
  5. Structured Output 2.0:JSON Schema 验证准确率达到 99.8%

核心参数对比表

先上硬参数对比,这张表我整理了当前主流旗舰模型的核心规格:

参数维度GPT-5GPT-5-miniClaude Opus 4.6Gemini 3 UltraGLM-5DeepSeek V3
上下文窗口256K128K200K2M128K128K
最大输出32K16K16K16K8K8K
多模态-图像
多模态-音频
多模态-视频
Function Calling并行+嵌套并行并行并行基础并行
Structured Outputv2.0v2.0
Streaming
知识截止2026.022026.022025.122026.012025.112025.10
首 Token 延迟~500ms~200ms~400ms~600ms~300ms~250ms

有几点要说明:Gemini 3 Ultra 的 2M 上下文纸面上吓人,但实测超过 500K 之后质量会明显下降。GPT-5 的 256K 是实打实能用的,我测了 200K 左右的长文档问答,检索准确率还在 92% 以上。

Benchmark 深度解析

跑分这事儿吧,大家都知道要辩证看。但趋势还是能说明问题的:

BenchmarkGPT-5Claude Opus 4.6Gemini 3 UltraGLM-5DeepSeek V3说明
MMLU-Pro89.2%86.7%87.5%82.3%83.1%综合知识推理
GPQA Diamond71.3%68.9%66.2%58.4%60.1%研究生级科学推理
HumanEval+93.7%92.1%88.4%85.6%90.2%代码生成
SWE-Bench Verified56.8%62.3%48.2%42.1%51.7%真实软件工程
MATH-50096.1%93.8%94.5%88.7%91.3%数学推理
MT-Bench9.59.39.28.89.0多轮对话
MMLUx (多语言)85.3%82.1%83.7%86.2%84.5%多语言理解

几个关键发现:

  • GPT-5 在综合推理和数学上确实是第一梯队,GPQA Diamond 首次突破 70% 是个里程碑
  • SWE-Bench 上 Claude Opus 4.6 依然是王者,62.3% vs 56.8%,真实软件工程场景下 Claude 的优势还是明显的
  • GLM-5 在多语言理解上表现亮眼(86.2%),中文场景下的实际体验可能比跑分差距更小
  • DeepSeek V3 的代码能力(HumanEval+ 90.2%)考虑到它的价格,性价比极高

我的判断是:重推理、重数学的场景,GPT-5 目前最强;主力是代码生成和软件工程,Claude Opus 4.6 仍然值得优先考虑。

定价分析与成本测算

这部分是大家最关心的。GPT-5 的定价确实不便宜,但比我预期的要合理:

模型输入价格 ($/1M tokens)输出价格 ($/1M tokens)输入 (¥/1M tokens)输出 (¥/1M tokens)缓存输入折扣
GPT-5$15.00$60.00¥109¥43650% off
GPT-5-mini$1.50$6.00¥10.9¥43.650% off
Claude Opus 4.6$15.00$75.00¥109¥54590% off
Gemini 3 Ultra$12.50$50.00¥91¥36350% off
DeepSeek V3$0.27$1.10¥1.96¥8.0-
GLM-5¥25/1M¥100/1M¥25¥100-

注:汇率按 1 USD = 7.27 CNY 计算,实际结算以平台为准

三个真实场景的月成本测算:

场景 1:个人开发者日常编码助手

  • 日均:输入 50K tokens + 输出 10K tokens
  • GPT-5 月成本:(0.05 × 109 + 0.01 × 436) × 30 = ¥294/月
  • GPT-5-mini 月成本:(0.05 × 10.9 + 0.01 × 43.6) × 30 = ¥29.4/月
  • DeepSeek V3 月成本:(0.05 × 1.96 + 0.01 × 8.0) × 30 = ¥5.3/月

场景 2:中型团队(5人)代码 Review + 文档生成

  • 日均:输入 500K tokens + 输出 100K tokens
  • GPT-5 月成本:(0.5 × 109 + 0.1 × 436) × 30 = ¥2,943/月
  • Claude Opus 4.6 月成本:(0.5 × 109 + 0.1 × 545) × 30 = ¥3,270/月

场景 3:RAG 应用(大量长文档检索)

  • 日均:输入 2M tokens(含文档上下文)+ 输出 50K tokens
  • GPT-5 月成本(开缓存):(2 × 109 × 0.5 + 0.05 × 436) × 30 = ¥3,924/月
  • Gemini 3 Ultra(开缓存):(2 × 91 × 0.5 + 0.05 × 363) × 30 = ¥3,275/月

GPT-5 的输出价格比 Claude Opus 4.6 便宜 20%,输入价格持平。场景是"少量输入、大量输出"(内容生成)的话 GPT-5 性价比更高;"大量输入、少量输出"(RAG)的话 Gemini 3 更划算。

API 调用实战代码

下面是我实测跑通的完整代码,包括基础调用、Streaming 和 Function Calling 三种场景。

基础调用

from openai import OpenAI

client = OpenAI(
 api_key="your-api-key",
 base_url="https://api.ofox.ai/v1" # 聚合接口,一个 Key 调用 50+ 模型
)

response = client.chat.completions.create(
 model="gpt-5",
 messages=[
 {"role": "system", "content": "你是一个资深 Python 开发工程师。"},
 {"role": "user", "content": "帮我写一个带重试机制的 HTTP 请求封装,要求支持指数退避。"}
 ],
 max_tokens=4096,
 temperature=0.7
)

print(response.choices[0].message.content)
print(f"Token 用量:输入 {response.usage.prompt_tokens},输出 {response.usage.completion_tokens}")

Streaming 流式输出

stream = client.chat.completions.create(
 model="gpt-5",
 messages=[
 {"role": "user", "content": "用 Python 实现一个简单的 LRU Cache,要求线程安全。"}
 ],
 max_tokens=4096,
 stream=True
)

full_content = ""
for chunk in stream:
 if chunk.choices[0].delta.content:
 content = chunk.choices[0].delta.content
 full_content += content
 print(content, end="", flush=True)

print(f"\n\n总输出长度:{len(full_content)} 字符")

Function Calling(并行调用)

GPT-5 的新版 Function Calling 支持并行 + 嵌套调用,这是个实际的天气+日程查询示例:

import json

tools = [
 {
 "type": "function",
 "function": {
 "name": "get_weather",
 "description": "获取指定城市的天气信息",
 "parameters": {
 "type": "object",
 "properties": {
 "city": {"type": "string", "description": "城市名称"},
 "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
 },
 "required": ["city"]
 }
 }
 },
 {
 "type": "function",
 "function": {
 "name": "get_calendar",
 "description": "获取指定日期的日程安排",
 "parameters": {
 "type": "object",
 "properties": {
 "date": {"type": "string", "description": "日期,格式 YYYY-MM-DD"}
 },
 "required": ["date"]
 }
 }
 }
]

response = client.chat.completions.create(
 model="gpt-5",
 messages=[
 {"role": "user", "content": "帮我查一下北京和上海今天的天气,顺便看看我今天有什么日程安排"}
 ],
 tools=tools,
 tool_choice="auto"
)

# GPT-5 会并行调用三个函数:get_weather(北京), get_weather(上海), get_calendar(今天)
for tool_call in response.choices[0].message.tool_calls:
 func_name = tool_call.function.name
 func_args = json.loads(tool_call.function.arguments)
 print(f"调用函数:{func_name},参数:{func_args}")

实测 GPT-5 在 Function Calling 场景下,参数提取的准确率比 GPT-4o 提升了不少,特别是复杂嵌套参数的场景,之前经常漏字段的问题基本解决了。

五大典型应用场景

根据 GPT-5 的能力特点,这五个场景最能发挥它的优势:

1. 复杂推理与决策支持 GPQA 71.3% 的成绩说明 GPT-5 在专业领域的推理能力已经相当强了。金融分析、法律条款解读、医疗文献综述这类需要深度推理的场景,GPT-5 目前是最优选择。

2. 长文档处理与 RAG 256K 的真实可用上下文,意味着你可以把一整本技术文档丢进去做问答,省去很多分块检索的工程量。

3. 多模态内容理解 原生支持图像+音频+视频,做内容审核、视频摘要、会议纪要这类产品的话,一个模型搞定所有模态。

4. 高质量代码生成 HumanEval+ 93.7%,真实工程场景(SWE-Bench)不如 Claude,但在单函数/单模块级别的代码生成上,GPT-5 的质量很高。

5. Structured Output 场景 需要稳定输出 JSON 的场景(爬虫数据解析、API 响应格式化、表单提取),GPT-5 的 Structured Output 2.0 基本不会出格式错误。

开发者接入方案

三种主流接入方式对比:

维度OpenAI 官方直连云厂商代理 (Azure等)API 聚合平台 (ofox.ai等)
接入难度需要解决网络问题需要企业账号审批改 base_url 即可
延迟视网络情况较稳定,200-400ms低延迟直连,~300ms
计费方式美元信用卡云厂商账单支付宝/微信,按量付费
模型覆盖仅 OpenAI 系列单一厂商50+ 模型,一个 Key
稳定性偶有限流较高多供应商冗余
适合谁有稳定网络的团队企业用户个人开发者/中小团队

我个人现在的方案是用聚合平台。原因很简单:我同时在用 GPT-5、Claude Opus 4.6 和 DeepSeek V3,如果每家都单独接一套鉴权和计费系统,光维护成本就够我喝一壶的。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude Opus 4.6、Gemini 3 等 50+ 模型,兼容 OpenAI/Anthropic/Gemini 三大协议,低延迟直连无需代理,支持支付宝/微信按量付费。 改个 base_url 就完事了,代码层面零改动。

下面是调用链路的示意图:

graph LR
 A[你的应用代码] -->|OpenAI SDK| B[ofox.ai 聚合网关]
 B -->|路由分发| C[OpenAI GPT-5]
 B -->|路由分发| D[Anthropic Claude Opus 4.6]
 B -->|路由分发| E[Google Gemini 3]
 B -->|路由分发| F[DeepSeek V3]
 B -->|路由分发| G[GLM-5 / Qwen 3 / ...]
 
 style B fill:#f9f,stroke:#333,stroke-width:2px

竞品模型横向对比表

最后来一张综合对比表,帮你根据自己的场景做选择:

对比维度GPT-5Claude Opus 4.6Gemini 3 UltraDeepSeek V3GLM-5
综合推理⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
代码生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
真实工程 (SWE)⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
长上下文质量⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
中文能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
性价比⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
响应速度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

一句话选型:

  • 预算充足、追求全能:GPT-5
  • 主力写代码:Claude Opus 4.6
  • 超长文档场景:Gemini 3 Ultra
  • 成本敏感、中文为主:DeepSeek V3 或 GLM-5
  • 多模态(音视频):GPT-5 或 Gemini 3 Ultra

FAQ

Q1:GPT-5 和 GPT-4o 的 API 接口有什么变化?需要改代码吗? A:接口完全兼容,只需要把 model 参数从 gpt-4o 改成 gpt-5 就行。Function Calling、Structured Output 的调用方式不变,但新增了 parallel_tool_callsnested_calls 参数。

Q2:GPT-5 的 256K 上下文是真能用还是噱头? A:实测到 200K 左右检索准确率还在 90% 以上,比 GPT-4o 的 128K(实际 80K 左右开始衰减)强很多。日常控制在 150K 以内性价比最高。

Q3:GPT-5-mini 和 GPT-5 差距大吗? A:差距不小但场景相关。简单的对话、翻译、格式化任务用 mini 完全够了,成本只有十分之一。复杂推理和代码生成还是得上 GPT-5。我的策略是路由分发,简单任务走 mini,复杂的走 GPT-5。

Q4:GPT-5 的 Function Calling 相比之前有哪些改进? A:两个大改进——并行调用(一次返回多个 tool_call)和嵌套调用(function 的输出可以作为另一个 function 的输入)。延迟降低约 40%,参数提取准确率也提升了,复杂嵌套 JSON 参数基本不会出错了。

Q5:视频理解能力怎么样? A:目前支持上传短视频(最长约 3 分钟),会自动抽帧分析。我测了几个代码演示视频的理解,能准确描述操作步骤,但细节偶尔会漏。不建议用于关键业务的视频分析,当辅助工具用还行。

Q6:GPT-5 在 Cursor 等 AI 编辑器里能用吗? A:可以。Cursor 的 Settings → Models 里选 OpenAI Compatible,base_url 填聚合平台的地址,modelgpt-5,就能在 Cursor 里用 GPT-5 了。不过 Cursor 内置的模型用起来更方便,看你的需求。

Q7:GPT-5 的 Structured Output 2.0 具体改了什么? A:最大的改进是支持更复杂的 JSON Schema,包括 anyOfoneOf、递归引用等。验证准确率从之前的 97% 提升到 99.8%,意味着你几乎不需要再写后处理逻辑来修正格式错误了。

Q8:和 OpenClaw 有什么关系? A:OpenClaw 是 OpenAI 最新推出的 Agent 框架生态,GPT-5 是底座模型。OpenClaw 的 Skills 功能底层调用的就是 GPT-5 的 Function Calling 能力。如果你在做 Agent 开发,建议 GPT-5 + OpenClaw 搭配使用。

总结

折腾了这几天,我对 GPT-5 的总体评价是:综合能力确实是当前最强的,但不是所有场景都值得用它。

三条行动建议:

  1. 场景以推理和多模态为主的话,GPT-5 值得立刻切换,提升是肉眼可见的
  2. 主力是代码生成的话,建议 GPT-5 + Claude Opus 4.6 搭配使用,不同任务用不同模型
  3. 成本敏感型,GPT-5-mini + DeepSeek V3 的组合可能是 2026 年最优的性价比方案

模型更新这么快,与其绑死一家,不如用聚合接口保持灵活性。反正改个 model 参数的事儿,随时切换才是正道。


以上测试数据基于 2026 年 3 月实测,模型性能和定价可能随 OpenAI 后续更新有所变化。如果你也在用 GPT-5,欢迎评论区交流踩坑经验。