上个月团队把主力模型从 GPT-4o 升级到 GPT-5,账单直接翻了一倍多,老板让我查清楚到底钱花在哪了。我花了两天把能找到的渠道价格全扒了一遍,发现同一个模型,不同渠道的价格差距能到 30% 以上,还有各种隐藏费用容易踩坑。
GPT-5 是 OpenAI 2026 年主力旗舰模型,输入价格 60/1M tokens(官方标准价),但通过不同渠道接入实际成本差异很大,善用缓存和聚合平台可以省下 30%-50% 的费用。
为什么要写这个
最近 GLM-5 开源、Claude 4.6 持续降价,大模型价格战打得火热。GPT-5 作为很多团队的主力模型,它的费率体系挺复杂——光看官网报价远远不够。不同的 context 长度、有没有命中缓存、走哪家云厂商,最终账单差别很大。
调研结果整理成表格,希望对有同样困惑的人有用。
GPT-5 官方费率表(2026 年 7 月最新)
先放 OpenAI 官方公布的标准价格:
| 模型 | 输入价格($/1M tokens) | 输出价格($/1M tokens) | 缓存输入价格 | 上下文窗口 | 最大输出 |
|---|---|---|---|---|---|
| GPT-5 | $30.00 | $60.00 | $15.00 | 256K | 32K |
| GPT-5 Mini | $6.00 | $12.00 | $3.00 | 256K | 32K |
| GPT-4o(仍在服务) | $2.50 | $10.00 | $1.25 | 128K | 16K |
| o3 | $10.00 | $40.00 | $5.00 | 200K | 100K |
| o3-mini | $1.10 | $4.40 | $0.55 | 200K | 100K |
几个要注意的点:
- 缓存命中能省一半输入费用,这是最容易被忽略的省钱手段
- GPT-5 Mini 是性价比甜点,大部分场景够用
- o3 系列虽然推理强,但输出价格贵,长链推理任务账单会爆
GPT-5 vs 竞品模型价格横向对比
光看 GPT-5 自己的价格没意义,得跟竞品放一起看:
| 模型 | 厂商 | 输入($/1M tokens) | 输出($/1M tokens) | 输入(¥/1M tokens) | 输出(¥/1M tokens) | 上下文 |
|---|---|---|---|---|---|---|
| GPT-5 | OpenAI | $30.00 | $60.00 | ≈217 | ≈434 | 256K |
| GPT-5 Mini | OpenAI | $6.00 | $12.00 | ≈43 | ≈87 | 256K |
| Claude Opus 4.6 | Anthropic | $15.00 | $75.00 | ≈108 | ≈542 | 200K |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | ≈22 | ≈108 | 200K |
| Gemini 3 Pro | $7.00 | $21.00 | ≈51 | ≈152 | 1M | |
| DeepSeek V3 | DeepSeek | $0.27 | $1.10 | ≈2 | ≈8 | 128K |
| Qwen 3 Max | 阿里 | — | — | ≈20 | ≈60 | 128K |
| GLM-5 | 智谱 | — | — | ≈10 | ≈10 | 128K |
汇率按 1 美元 ≈ 7.23 人民币估算,实际以付款时为准。
看完这个表说实话挺震惊的——DeepSeek V3 的价格基本是 GPT-5 的 1/100,GLM-5 开源后更是白菜价。但模型能力还是有差距的,GPT-5 在复杂推理和长上下文任务上的优势目前还是明显的,不能纯看价格。
不同渠道接入 GPT-5 的实际费率对比
这才是重头戏。同一个 GPT-5 模型,走不同渠道价格不一样:
| 接入渠道 | 输入($/1M tokens) | 输出($/1M tokens) | 额外费用 | 延迟 | 备注 |
|---|---|---|---|---|---|
| OpenAI 官方 API | $30.00 | $60.00 | 无 | 基准 | 需要外币信用卡 |
| Azure OpenAI | $30.00 | $60.00 | 无(PTU 另算) | 低 | 企业级 SLA |
| AWS Bedrock | $30.00 | $60.00 | 无 | 较低 | 走 AWS 账单体系 |
| API 聚合平台 | 约 $30-33 | 约 $60-66 | 无 | 约 300ms | 一个 Key 多模型 |
说几个坑:
- OpenAI 官方需要外币信用卡,很多人卡在这步
- Azure 的 PTU(预留吞吐量)模式看起来便宜,但要预付,用不完也不退
- Bedrock 的计费跟 AWS 其他服务搅在一起,对账很头疼
- 聚合平台通常在官方价格基础上加一点点服务费,但胜在方便——支付宝就能充值,不用折腾支付方式
隐藏费用:这些坑我替你踩了
光看 token 单价不够,这些隐藏成本会让实际账单比预期高不少。
1. Prompt 缓存没命中 = 白花一半钱
GPT-5 的缓存输入价格是 $15/1M tokens,只有正常价格的一半。但缓存要求前缀完全一致且长度 ≥ 1024 tokens,你的 system prompt 每次都改一个字?恭喜,全部按原价算。
2. 长上下文的隐形成本
GPT-5 支持 256K 上下文,但塞满 256K 输入 + 32K 输出,一次请求的费用:
输入:256,000 / 1,000,000 × $30 = $7.68
输出:32,000 / 1,000,000 × $60 = $1.92
单次请求 ≈ $9.60 ≈ ¥69.4
一次请求七十块,高并发场景日成本轻松破万。
3. 重试和超时
网络不稳定导致请求超时,retry 一次就是双倍费用。我之前没设 timeout,有个请求卡了 120 秒才返回 502,token 扣了但结果没拿到,心态崩了。
三种典型场景的月成本测算
| 场景 | 日请求量 | 平均输入 tokens | 平均输出 tokens | 日成本(¥) | 月成本(¥) |
|---|---|---|---|---|---|
| 个人开发者(小工具) | 100 次 | 2,000 | 500 | ≈ 65 | ≈ 1,950 |
| 小团队(客服/内容) | 2,000 次 | 3,000 | 1,000 | ≈ 2,170 | ≈ 65,100 |
| 中型产品(核心功能) | 20,000 次 | 5,000 | 2,000 | ≈ 30,400 | ≈ 912,000 |
按 GPT-5 标准价计算,未考虑缓存命中。实际有缓存的话,输入费用可以打个五到七折。
看到第三行我就理解为什么很多团队在想办法用 DeepSeek V3 或 GLM-5 替代部分场景了——不是 GPT-5 不好,是真的贵。
我的省钱方案
折腾了一圈,总结出几条实际有用的。
1. 模型分级,别什么都用 GPT-5
graph TD
A[用户请求] --> B{任务复杂度判断}
B -->|简单问答/分类| C[GPT-5 Mini / DeepSeek V3]
B -->|常规生成/翻译| D[Claude Sonnet 4.6 / Qwen 3]
B -->|复杂推理/长文| E[GPT-5]
B -->|代码生成/Debug| F[Claude Opus 4.6]
C --> G[成本: ¥2-8/1M tokens]
D --> G2[成本: ¥22-60/1M tokens]
E --> G3[成本: ¥217-434/1M tokens]
F --> G4[成本: ¥108-542/1M tokens]
现在的做法是先用便宜模型做初筛,只有真正需要 GPT-5 能力的任务才路由过去,整体成本降了差不多 60%。
2. 固定 system prompt,吃满缓存
把 system prompt 固定下来,长度保持在 1024 tokens 以上,能稳定命中缓存。光这一招,输入成本直接减半。
3. 用聚合平台统一管理多模型
同时用好几个模型的话,每家单独开账号、绑不同的支付方式,管理起来很烦。我现在用 ofox.ai 的聚合接口,一个 API Key 就能调 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3,改个 base_url 就行,代码基本不用动:
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
# 同一个 client,切换模型只需要改 model 参数
response = client.chat.completions.create(
model="gpt-5", # 换成 "claude-4.6-sonnet" / "deepseek-v3" 都行
messages=[{"role": "user", "content": "帮我分析一下这段代码的性能瓶颈"}],
max_tokens=2000
)
ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude 4.6、Gemini 3 等 50+ 模型,低延迟直连无需代理,支持支付宝/微信付款,按量计费。 对我来说最大的好处是不用操心各家 API 的鉴权差异和支付问题,尤其是模型路由这块——今天想把某个场景从 GPT-5 切到 DeepSeek V3 省钱,改一行 model 参数就完事了。
4. 设好 max_tokens 和 timeout
别偷懒不设 max_tokens,GPT-5 默认可能给你生成一大堆用不上的内容。timeout 也要设,避免超时重试的冤枉钱。
不同预算怎么选
| 月预算 | 推荐方案 | 主力模型 | 补充模型 |
|---|---|---|---|
| < 500 元 | 按量付费 | DeepSeek V3 / GLM-5 | GPT-5 Mini 少量用 |
| 500-5000 元 | 聚合平台按量 | GPT-5 Mini + Claude Sonnet 4.6 | GPT-5 关键任务用 |
| 5000-50000 元 | 聚合平台 + 缓存优化 | GPT-5 + 模型路由分级 | DeepSeek V3 做初筛 |
| > 50000 元 | Azure PTU + 聚合平台混用 | GPT-5 PTU 预留 | 多模型冗余 |
小结
GPT-5 确实贵,但贵有贵的道理——复杂任务上的效果目前还是第一梯队。关键是别无脑全量用 GPT-5,做好模型分级、吃满缓存、控制输出长度,实际成本能压下来不少。
最近 GLM-5 开源和各家降价,2026 下半年的价格格局估计还会变,到时候再更新这个表。
有什么遗漏或者价格有变动的,评论区告诉我。