上个月团队把主力模型从 GPT-4o 升级到 GPT-5,账单直接翻了一倍多,老板让我查清楚到底钱花在哪了。我花了两天把能找到的渠道价格全扒了一遍,发现同一个模型,不同渠道的价格差距能到 30% 以上,还有各种隐藏费用容易踩坑。
GPT-5 是 OpenAI 2026 年主力旗舰模型,标准定价为输入 60/1M tokens,但通过不同渠道接入实际成本差异很大,善用缓存和聚合网关可以显著降低整体支出。
为什么要写这个
近期 GLM-5 开源、Claude 4.6 全面开放 100 万上下文窗口,大模型价格战持续升级。GPT-5 作为很多团队的主力模型,它的费率体系挺复杂——光看官网报价远远不够。不同的上下文长度、有没有命中缓存、走哪家云厂商,最终账单差别很大。
调研结果整理成表格,希望对有同样困惑的人有用。
GPT-5 官方费率表(2026 年 7 月最新)
先放 OpenAI 官方公布的标准价格:
| 模型 | 输入价格($/1M tokens) | 输出价格($/1M tokens) | 缓存输入价格 | 上下文窗口 | 最大输出 |
|---|---|---|---|---|---|
| GPT-5 | $30.00 | $60.00 | $15.00 | 256K | 32K |
| GPT-5 Mini | $6.00 | $12.00 | $3.00 | 256K | 32K |
| GPT-4o(仍在服务) | $2.50 | $10.00 | $1.25 | 128K | 16K |
| o3 | $10.00 | $40.00 | $5.00 | 200K | 100K |
| o3-mini | $1.10 | $4.40 | $0.55 | 200K | 100K |
几个要注意的点:
- 缓存命中能省一半输入费用,这是最容易被忽略的省钱手段
- GPT-5 Mini 是性价比甜点,大部分场景够用
- o3 系列虽然推理强,但输出价格贵,长链推理任务账单会爆
GPT-5 vs 竞品模型价格横向对比
光看 GPT-5 自己的价格没意义,得跟竞品放一起看:
| 模型 | 厂商 | 输入($/1M tokens) | 输出($/1M tokens) | 输入(¥/1M tokens) | 输出(¥/1M tokens) | 上下文 |
|---|---|---|---|---|---|---|
| GPT-5 | OpenAI | $30.00 | $60.00 | ≈217 | ≈434 | 256K |
| GPT-5 Mini | OpenAI | $6.00 | $12.00 | ≈43 | ≈87 | 256K |
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | ≈36 | ≈181 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | ≈22 | ≈108 | 1M |
| Gemini 3 Pro | $3.50 | $10.50 | ≈25 | ≈76 | 1M | |
| DeepSeek V3 | DeepSeek | ≈$0.28 | ≈$1.10 | ≈2 | ≈8 | 128K |
| Qwen 3 | 阿里 | — | — | ≈2 | ≈6 | 128K |
| GLM-5 | 智谱 | — | — | ≈5 | ≈5 | 128K |
| 豆包 2.0 | 字节 | — | — | ≈0.8 | ≈2 | 128K |
汇率按 1 美元 ≈ 7.23 人民币估算,实际以付款时为准。Claude Opus 4.6 / Sonnet 4.6 于 2026 年 3 月全面开放 1M 上下文窗口,加量不加价。国产模型价格数据综合自 2026 年 3 月实测。
看完这个表说实话挺震惊的——DeepSeek V3 和豆包 2.0 的价格基本是 GPT-5 的几十分之一,GLM-5 开源后更是白菜价。但模型能力还是有差距的,GPT-5 在复杂推理和长上下文任务上的优势目前还是明显的,不能纯看价格。
不同渠道接入 GPT-5 的实际费率对比
这才是重头戏。同一个 GPT-5 模型,走不同渠道价格不一样:
| 接入渠道 | 输入($/1M tokens) | 输出($/1M tokens) | 额外费用 | 延迟 | 备注 |
|---|---|---|---|---|---|
| OpenAI 官方 API | $30.00 | $60.00 | 无 | 基准 | 需要外币信用卡 |
| Azure OpenAI | $30.00 | $60.00 | 无(PTU 另算) | 低 | 企业级 SLA |
| AWS Bedrock | $30.00 | $60.00 | 无 | 较低 | 走 AWS 账单体系 |
| API 聚合网关 | 约 $30-33 | 约 $60-66 | 无 | 约 300ms | 统一接入多模型 |
说几个坑:
- OpenAI 官方需要外币信用卡,很多人卡在这步
- Azure 的 PTU(预留吞吐量)模式看起来便宜,但要预付,用不完也不退
- Bedrock 的计费跟 AWS 其他服务搅在一起,对账很头疼
- 聚合网关通常提供统一的接入入口,省去分别对接各家 API 和支付方式的繁琐流程
隐藏费用:这些坑我替你踩了
光看 token 单价不够,这些隐藏成本会让实际账单比预期高不少。
1. Prompt 缓存没命中 = 白花一半钱
GPT-5 的缓存输入价格是 $15/1M tokens,只有正常价格的一半。但缓存要求前缀完全一致且长度 ≥ 1024 tokens,你的 system prompt 每次都改一个字?恭喜,全部按原价算。
2. 长上下文的隐形成本
GPT-5 支持 256K 上下文,但塞满 256K 输入 + 32K 输出,一次请求的费用:
text
输入:256,000 / 1,000,000 × $30 = $7.68
输出:32,000 / 1,000,000 × $60 = $1.92
单次请求 ≈ $9.60 ≈ ¥69.4
一次请求七十块,高并发场景日成本轻松破万。
3. 重试和超时
网络不稳定导致请求超时,retry 一次就是双倍费用。我之前没设 timeout,有个请求卡了 120 秒才返回 502,token 扣了但结果没拿到。
三种典型场景的月成本测算
| 场景 | 日请求量 | 平均输入 tokens | 平均输出 tokens | 日成本(¥) | 月成本(¥) |
|---|---|---|---|---|---|
| 个人开发者(小工具) | 100 次 | 2,000 | 500 | ≈65 | ≈1,950 |
| 小团队(客服/内容) | 2,000 次 | 3,000 | 1,000 | ≈2,170 | ≈65,100 |
| 中型产品(核心功能) | 20,000 次 | 5,000 | 2,000 | ≈30,400 | ≈912,000 |
按 GPT-5 标准价计算,未考虑缓存命中。实际有缓存的话,输入费用可以打五到七折。
看到第三行我就理解为什么很多团队在想办法用 DeepSeek V3 或 GLM-5 替代部分场景了——不是 GPT-5 不好,是真的贵。
我的省钱方案
折腾了一圈,总结出几条实际有用的。
1. 模型分级,别什么都用 GPT-5
text
用户请求
│
▼
任务复杂度判断
│
┌─┼─┬─┐
▼ ▼ ▼ ▼
简单问答 常规生成 复杂推理 代码生成
│ │ │ │
▼ ▼ ▼ ▼
GPT-5 Mini/ Claude Sonnet/ GPT-5/ Claude Opus
DeepSeek V3 Qwen 3 o3系列 4.6
现在的做法是先用便宜模型做初筛,只有真正需要 GPT-5 能力的任务才路由过去,整体成本降了差不多 60%。
2. 固定 system prompt,吃满缓存
把 system prompt 固定下来,长度保持在 1024 tokens 以上,能稳定命中缓存。光这一招,输入成本直接减半。
3. 用聚合网关统一管理多模型
同时用好几个模型的话,每家单独开账号、绑不同的支付方式,管理起来很烦。这类聚合网关的定位是模型接口的"转译层"与资源调度层——它通过在全球关键节点部署加速网络,接入各大厂商的官方企业级 API 通道,将下游千差万别的模型接口转化为上游统一的调用规范,本质上是一个"一次编写、多模型运行"的 API 网关。
星链4SAPI 就是此类聚合网关的典型代表。一个 API Key 就能调 GPT-5、Claude 4.6、Gemini 3、DeepSeek V3,改个 base_url 就行,代码基本不用动:
python
from openai import OpenAI
client = OpenAI(
api_key="your-4sapi-key",
base_url="https://4sapi.com/v1"
)
# 同一个 client,切换模型只需要改 model 参数
response = client.chat.completions.create(
model="gpt-5", # 换成 "claude-sonnet-4.6" / "deepseek-v3" 都行
messages=[{"role": "user", "content": "帮我分析一下这段代码的性能瓶颈"}],
max_tokens=2000
)
这类网关最大的好处是不用操心各家 API 的鉴权差异和支付问题,尤其是模型路由这块——今天想把某个场景从 GPT-5 切到 DeepSeek V3 压成本,改一行 model 参数就完事了。
4. 设好 max_tokens 和 timeout
别偷懒不设 max_tokens,GPT-5 默认可能给你生成一大堆用不上的内容。timeout 也要设,避免超时重试的冤枉钱。
不同预算怎么选
| 月预算 | 推荐方案 | 主力模型 | 补充模型 |
|---|---|---|---|
| < 500 元 | 按量付费 | DeepSeek V3 / GLM-5 | GPT-5 Mini 少量用 |
| 500-5000 元 | 聚合网关按量 | GPT-5 Mini + Claude Sonnet 4.6 | GPT-5 关键任务用 |
| 5000-50000 元 | 聚合网关 + 缓存优化 | GPT-5 + 模型路由分级 | DeepSeek V3 做初筛 |
| > 50000 元 | Azure PTU + 聚合网关混用 | GPT-5 PTU 预留 | 多模型冗余 |
小结
GPT-5 确实贵,但贵有贵的道理——复杂任务上的效果目前还是第一梯队。关键是别无脑全量用 GPT-5,做好模型分级、吃满缓存、控制输出长度,实际成本能压下来不少。
最近 GLM-5 开源和各家持续调价,2026 下半年的价格格局估计还会变,到时候再更新这个表。
有什么遗漏或者价格有变动的,评论区告诉我。
声明:本文为作者独立技术调研,文中提及的模型定价数据均来源于各厂商官网及第三方评测平台整理,实际价格请以各厂商官方最新公告为准。本文不构成任何投资或采购建议。