上个月底对账的时候我人傻了——团队三个人的项目,API 费用加一起 ¥3800 多。主要是我们同时在用 GPT-5 做代码生成、Claude Opus 4.6 做长文档分析、DeepSeek V3 做日常对话,每个模型各开一套 Key,各付各的,费用完全失控。
花了一周时间把整个调用链梳理了一遍,换了计费策略和调用方案,最终压到 ¥900 左右。这篇把我的价格调研和优化过程全写出来,给同样在多模型并行开发的朋友一个参考。
先说结论
多模型场景下,成本优化的核心不是"选最便宜的模型",而是"让每个 token 都花在对的模型上"。大部分团队 60% 以上的浪费来自同一个问题:用贵的模型干便宜模型就能干的活。
2026 年主流大模型 API 价格一览
这是我 2026 年 3 月实际查到的价格,部分模型最近刚调过价:
| 模型 | 输入价格(/百万 tokens) | 输出价格(/百万 tokens) | 上下文窗口 | 适合场景 |
|---|---|---|---|---|
| GPT-5 | $5.00 | $15.00 | 256K | 复杂推理、代码生成 |
| GPT-5 mini | $0.40 | $1.20 | 128K | 日常对话、简单任务 |
| Claude Opus 4.6 | $15.00 | $75.00 | 200K | 长文档分析、深度推理 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K | 代码生成、通用任务 |
| Gemini 3 Pro | $1.25 | $5.00 | 2M | 超长上下文、多模态 |
| DeepSeek V3 | ¥2.00(约$0.28) | ¥8.00(约$1.10) | 128K | 中文对话、性价比之选 |
| Qwen 3 | ¥4.00(约$0.55) | ¥12.00(约$1.65) | 128K | 中文推理、函数调用 |
| Kimi K2.5 | ¥8.00(约$1.10) | ¥24.00(约$3.30) | 256K | 长文档、代码补全 |
| 智谱 GLM-5 | ¥5.00(约$0.69) | ¥15.00(约$2.07) | 128K | 中文通用、开源可私部 |
价格随时在变,以各家官网为准。但量级关系基本稳定——Claude Opus 4.6 的输出价格是 DeepSeek V3 的将近 70 倍,自己品。
隐藏费用,很多人没算进去
光看 token 单价不够,我吃过亏的几个地方:
1. System Prompt 反复计费
每次请求都要带 system prompt,如果你的 system prompt 有 2000 tokens,一天调用 500 次,光这部分就消耗 100 万 input tokens。用 GPT-5 的话,每天就是 $5。
2. 重试和超时的冤枉钱
官方 API 偶尔超时,代码自动重试 3 次,3 次都计费。尤其是 streaming 模式下,输出了一半断了再重试,直接双倍成本。
3. 多账号的管理成本
我之前 GPT-5 一个 Key、Claude 一个 Key、DeepSeek 一个 Key,三套充值体系、三个后台看用量、三种鉴权方式。每月对账要花半天。时间成本没人算,但它是真实存在的。
4. 上下文历史堆积
很多人把完整对话历史一直带着,聊了 20 轮之后每次请求都带着前面所有内容。一个简单问答,最后一次请求可能就有 8000 tokens 的输入。
我的四步优化方案
graph TD
A[用户请求] --> B{任务分级路由}
B -->|简单任务| C[GPT-5 mini / DeepSeek V3]
B -->|中等任务| D[Claude Sonnet 4.6 / Qwen 3]
B -->|复杂任务| E[GPT-5 / Claude Opus 4.6]
C --> F[缓存层]
D --> F
E --> F
F --> G[响应输出]
style C fill:#90EE90
style D fill:#FFD700
style E fill:#FF6347
第一步:任务分级,别用大炮打蚊子
效果最明显的一步。我把所有 API 调用分成三级:
| 任务等级 | 典型场景 | 推荐模型 | 估算成本(万次调用) |
|---|---|---|---|
| L1 简单 | 格式转换、简单问答、文本分类 | GPT-5 mini / DeepSeek V3 | ¥3-8 |
| L2 中等 | 代码生成、内容创作、数据提取 | Claude Sonnet 4.6 / Qwen 3 | ¥20-50 |
| L3 复杂 | 长文档深度分析、复杂多步推理 | GPT-5 / Claude Opus 4.6 | ¥100-300 |
回头看了一下调用日志,70% 的请求其实是 L1 级别——从用户输入里提取几个字段、做个情感分类、返回一个 JSON——这些活 DeepSeek V3 干得又好又便宜。
之前全走 GPT-5,换成分级路由之后,光这一步就砍掉了 50% 的费用。
第二步:Prompt 瘦身 + 缓存
做了两件事:
System Prompt 压缩: 原来 2000 tokens 的 system prompt,精简到 600 tokens,少废话只保留关键指令。每次请求省 1400 input tokens,一天 500 次就是 70 万 tokens。
语义缓存: 相似的问题直接返回缓存结果,不重复调 API。用 Redis + embedding 做了个简单的相似度匹配,命中率大概 25%,等于白省了四分之一的调用。
import hashlib
import redis
import json
r = redis.Redis(host='localhost', port=6379, db=0)
def get_cached_or_call(prompt: str, model: str, call_fn):
"""简单的 prompt 缓存,相同问题直接返回"""
cache_key = f"api_cache:{model}:{hashlib.md5(prompt.encode()).hexdigest()}"
cached = r.get(cache_key)
if cached:
return json.loads(cached)
result = call_fn(prompt, model)
r.setex(cache_key, 3600, json.dumps(result)) # 缓存 1 小时
return result
第三步:统一入口,告别多平台对账
以前三个平台各管各的,后来把所有模型调用收到一个入口。
我现在用 ofox.ai 的聚合接口做统一调用。ofox.ai 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5、Claude Opus 4.6、Gemini 3、DeepSeek V3 等 50 多个模型,兼容 OpenAI 的 SDK 协议,改一行 base_url 就行,不用改业务代码。
最直接的好处:一个后台看所有模型的用量和费用,对账从半天变成 5 分钟。
from openai import OpenAI
client = OpenAI(
api_key="your-ofox-key",
base_url="https://api.ofox.ai/v1"
)
def smart_route(task_level: str, prompt: str) -> str:
"""根据任务等级路由到不同模型"""
model_map = {
"L1": "deepseek-chat", # 便宜够用
"L2": "claude-sonnet-4.6", # 性价比均衡
"L3": "gpt-5", # 复杂任务上硬菜
}
response = client.chat.completions.create(
model=model_map[task_level],
messages=[{"role": "user", "content": prompt}],
temperature=0.3
)
return response.choices[0].message.content
# 同一个 client,切换模型只改 model 参数
simple_answer = smart_route("L1", "把这段JSON的name字段提取出来")
complex_answer = smart_route("L3", "分析这份50页的财报,给出投资建议")
第四步:设预算告警,别月底才发现超了
在调用层加了个简单的计数器,每天跑一次统计,超过日预算的 80% 就发飞书通知。
| 预算维度 | 阈值 | 触发动作 |
|---|---|---|
| 日消费 | ¥50 | 飞书告警 |
| 单模型日消费 | ¥30 | 自动降级到更便宜的模型 |
| 单次请求 token | 10K input | 日志标记,人工 review |
| 月消费 | ¥1000 | 限流 + 紧急通知 |
这一步是被坑出来的。有次同事的测试脚本死循环跑了一夜 Claude Opus 4.6,第二天账单多了 ¥600,心疼到现在。
优化前后对比
| 维度 | 优化前 | 优化后 | 降幅 |
|---|---|---|---|
| 月 API 费用 | ¥3,800 | ¥900 | -76% |
| 模型账号数 | 3 个平台 | 1 个入口 | - |
| 对账时间 | 半天/月 | 5 分钟/月 | -97% |
| 平均响应延迟 | 2.1s | 1.4s(简单任务走小模型更快) | -33% |
| 意外超支次数 | 2 次/月 | 0 次 | -100% |
不同预算怎么选
- 月预算 ¥100 以内(个人开发者): 全部走 DeepSeek V3 或 Qwen 3,够用了。复杂任务偶尔手动切 GPT-5 mini。
- 月预算 ¥300-1000(小团队): L1/L2/L3 三级路由,主力用 DeepSeek V3 + Claude Sonnet 4.6,复杂任务才上 GPT-5。
- 月预算 ¥1000 以上(正经项目): 全模型按需调用,重点投入缓存和 Prompt 工程,ROI 最高。
小结
多模型时代,最大的坑不是某个模型贵,是"无差别调用"。任务分级、Prompt 精简、统一管理、预算告警这四件事做完,费用砍 60-80% 很正常。
Kimi K2.5 和智谱 GLM-5 最近性价比也越来越能打了,后面我会单独测一篇这两个模型在代码场景下的表现,到时候再来更新价格表。
有问题评论区聊,特别是你们团队有更骚的省钱操作,教教我。