GPT-5 API 费率全拆解:2026 各平台真实价格对比,附省钱方案

6 阅读1分钟

上个月团队把主力模型从 GPT-4o 升级到 GPT-5,账单直接翻了一倍多,老板让我查清楚到底钱花在哪了。我花了两天把能找到的渠道价格全扒了一遍,发现同一个模型,不同渠道的价格差距能到 30% 以上,还有各种隐藏费用容易踩坑。

GPT-5 是 OpenAI 2026 年主力旗舰模型,输入价格 30/1Mtokens、输出价格30/1M tokens、输出价格 60/1M tokens(官方标准价),但通过不同渠道接入实际成本差异很大,善用缓存和聚合平台可以省下 30%-50% 的费用。

为什么要写这个

最近 GLM-5 开源、Claude 4.6 持续降价,大模型价格战打得火热。GPT-5 作为很多团队的主力模型,它的费率体系挺复杂——光看官网报价远远不够。不同的 context 长度、有没有命中缓存、走哪家云厂商,最终账单差别很大。

调研结果整理成表格,希望对有同样困惑的人有用。

GPT-5 官方费率表(2026 年 7 月最新)

先放 OpenAI 官方公布的标准价格:

模型输入价格($/1M tokens)输出价格($/1M tokens)缓存输入价格上下文窗口最大输出
GPT-5$30.00$60.00$15.00256K32K
GPT-5 Mini$6.00$12.00$3.00256K32K
GPT-4o(仍在服务)$2.50$10.00$1.25128K16K
o3$10.00$40.00$5.00200K100K
o3-mini$1.10$4.40$0.55200K100K

几个要注意的点:

  • 缓存命中能省一半输入费用,这是最容易被忽略的省钱手段
  • GPT-5 Mini 是性价比甜点,大部分场景够用
  • o3 系列虽然推理强,但输出价格贵,长链推理任务账单会爆

GPT-5 vs 竞品模型价格横向对比

光看 GPT-5 自己的价格没意义,得跟竞品放一起看:

模型厂商输入($/1M tokens)输出($/1M tokens)输入(¥/1M tokens)输出(¥/1M tokens)上下文
GPT-5OpenAI$30.00$60.00≈217≈434256K
GPT-5 MiniOpenAI$6.00$12.00≈43≈87256K
Claude Opus 4.6Anthropic$15.00$75.00≈108≈542200K
Claude Sonnet 4.6Anthropic$3.00$15.00≈22≈108200K
Gemini 3 ProGoogle$7.00$21.00≈51≈1521M
DeepSeek V3DeepSeek$0.27$1.10≈2≈8128K
Qwen 3 Max阿里≈20≈60128K
GLM-5智谱≈10≈10128K

汇率按 1 美元 ≈ 7.23 人民币估算,实际以付款时为准。

看完这个表说实话挺震惊的——DeepSeek V3 的价格基本是 GPT-5 的 1/100,GLM-5 开源后更是白菜价。但模型能力还是有差距的,GPT-5 在复杂推理和长上下文任务上的优势目前还是明显的,不能纯看价格。

不同渠道接入 GPT-5 的实际费率对比

这才是重头戏。同一个 GPT-5 模型,走不同渠道价格不一样:

接入渠道输入($/1M tokens)输出($/1M tokens)额外费用延迟备注
OpenAI 官方 API$30.00$60.00基准需要外币信用卡
Azure OpenAI$30.00$60.00无(PTU 另算)企业级 SLA
AWS Bedrock$30.00$60.00较低走 AWS 账单体系
API 聚合平台约 $30-33约 $60-66约 300ms一个 Key 多模型

说几个坑:

  1. OpenAI 官方需要外币信用卡,很多人卡在这步
  2. Azure 的 PTU(预留吞吐量)模式看起来便宜,但要预付,用不完也不退
  3. Bedrock 的计费跟 AWS 其他服务搅在一起,对账很头疼
  4. 聚合平台通常在官方价格基础上加一点点服务费,但胜在方便——支付宝就能充值,不用折腾支付方式

隐藏费用:这些坑我替你踩了

光看 token 单价不够,这些隐藏成本会让实际账单比预期高不少。

1. Prompt 缓存没命中 = 白花一半钱

GPT-5 的缓存输入价格是 $15/1M tokens,只有正常价格的一半。但缓存要求前缀完全一致且长度 ≥ 1024 tokens,你的 system prompt 每次都改一个字?恭喜,全部按原价算。

2. 长上下文的隐形成本

GPT-5 支持 256K 上下文,但塞满 256K 输入 + 32K 输出,一次请求的费用:

输入:256,000 / 1,000,000 × $30 = $7.68
输出:32,000 / 1,000,000 × $60 = $1.92
单次请求 ≈ $9.60 ≈ ¥69.4

一次请求七十块,高并发场景日成本轻松破万。

3. 重试和超时

网络不稳定导致请求超时,retry 一次就是双倍费用。我之前没设 timeout,有个请求卡了 120 秒才返回 502,token 扣了但结果没拿到,心态崩了。

三种典型场景的月成本测算

场景日请求量平均输入 tokens平均输出 tokens日成本(¥)月成本(¥)
个人开发者(小工具)100 次2,000500≈ 65≈ 1,950
小团队(客服/内容)2,000 次3,0001,000≈ 2,170≈ 65,100
中型产品(核心功能)20,000 次5,0002,000≈ 30,400≈ 912,000

按 GPT-5 标准价计算,未考虑缓存命中。实际有缓存的话,输入费用可以打个五到七折。

看到第三行我就理解为什么很多团队在想办法用 DeepSeek V3 或 GLM-5 替代部分场景了——不是 GPT-5 不好,是真的贵。

我的省钱方案

折腾了一圈,总结出几条实际有用的。

1. 模型分级,别什么都用 GPT-5

graph TD
 A[用户请求] --> B{任务复杂度判断}
 B -->|简单问答/分类| C[GPT-5 Mini / DeepSeek V3]
 B -->|常规生成/翻译| D[Claude Sonnet 4.6 / Qwen 3]
 B -->|复杂推理/长文| E[GPT-5]
 B -->|代码生成/Debug| F[Claude Opus 4.6]
 C --> G[成本: ¥2-8/1M tokens]
 D --> G2[成本: ¥22-60/1M tokens]
 E --> G3[成本: ¥217-434/1M tokens]
 F --> G4[成本: ¥108-542/1M tokens]

现在的做法是先用便宜模型做初筛,只有真正需要 GPT-5 能力的任务才路由过去,整体成本降了差不多 60%。

2. 固定 system prompt,吃满缓存

把 system prompt 固定下来,长度保持在 1024 tokens 以上,能稳定命中缓存。光这一招,输入成本直接减半。

3. 用聚合平台统一管理多模型

同时用好几个模型的话,每家单独开账号、绑不同的支付方式,管理起来很烦。我现在用 ofox.ai 的聚合接口,一个 API Key 就能调 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3,改个 base_url 就行,代码基本不用动:

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

# 同一个 client,切换模型只需要改 model 参数
response = client.chat.completions.create(
 model="gpt-5", # 换成 "claude-4.6-sonnet" / "deepseek-v3" 都行
 messages=[{"role": "user", "content": "帮我分析一下这段代码的性能瓶颈"}],
 max_tokens=2000
)

ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、Gemini 3 等 50+ 模型,低延迟直连无需代理,支持支付宝/微信付款,按量计费。 对我来说最大的好处是不用操心各家 API 的鉴权差异和支付问题,尤其是模型路由这块——今天想把某个场景从 GPT-5 切到 DeepSeek V3 省钱,改一行 model 参数就完事了。

4. 设好 max_tokens 和 timeout

别偷懒不设 max_tokens,GPT-5 默认可能给你生成一大堆用不上的内容。timeout 也要设,避免超时重试的冤枉钱。

不同预算怎么选

月预算推荐方案主力模型补充模型
< 500 元按量付费DeepSeek V3 / GLM-5GPT-5 Mini 少量用
500-5000 元聚合平台按量GPT-5 Mini + Claude Sonnet 4.6GPT-5 关键任务用
5000-50000 元聚合平台 + 缓存优化GPT-5 + 模型路由分级DeepSeek V3 做初筛
> 50000 元Azure PTU + 聚合平台混用GPT-5 PTU 预留多模型冗余

小结

GPT-5 确实贵,但贵有贵的道理——复杂任务上的效果目前还是第一梯队。关键是别无脑全量用 GPT-5,做好模型分级、吃满缓存、控制输出长度,实际成本能压下来不少。

最近 GLM-5 开源和各家降价,2026 下半年的价格格局估计还会变,到时候再更新这个表。

有什么遗漏或者价格有变动的,评论区告诉我。