AI 通关攻略 · 第 9 关 | Token 定价:AI 是怎么收费的,怎么用才省钱
故事从一个常见困惑说起
使用 LLM API 是按 Token 计费的——输入和输出都要付费。
理解 Token 的定价逻辑,可以帮助你:
- 控制成本:知道什么操作会产生多少费用
- 优化使用:通过减少 Token 消耗来省钱
- 选型决策:不同模型、不同场景该选什么方案
1. Token 成本的基础知识
1.1 计费方式
大多数 LLM API 的计费方式是:
总费用 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价
注意:输入和输出的单价通常是不同的。一般输出比输入贵(因为输出需要更多计算资源)。
1.2 Token 估算
| 语言 | 平均每 Token 字符数 |
|---|---|
| 英文 | 约 0.75 ~ 1 个单词(每 1000 token ≈ 750 词) |
| 中文 | 约 1.5 ~ 2 个汉字(每 1000 token ≈ 500~700 字) |
1.3 估算工具
实际使用中,可以用以下方式估算:
- Token 计数器:OpenAI、Cohere 等都提供官方 API 端点来计算 Token 数
- 字符估算:作为粗略估算,中文每 2 个字符 ≈ 1 个 Token
- Token 预算:在发送给 LLM 之前,先计算预计 Token 数,避免超出 context window
2. 主流 LLM 的定价(截至 2026 年)
2.1 OpenAI 系列
| 模型 | 输入价格($/1M tokens) | 输出价格($/1M tokens) | 特点 |
|---|---|---|---|
| GPT-4o | $2.5 | $10 | 最新全能模型,性价比高 |
| GPT-4o mini | $0.15 | $0.60 | 轻量版,成本极低 |
| GPT-4 Turbo | $10 | $30 | 高性能,上下文 128K |
| GPT-4 | $30 | $60 | 高性能,上下文 8K |
| GPT-3.5 Turbo | $0.5 | $1.5 | 最便宜,适合简单任务 |
百万 token 费用参考:GPT-4o 输入 100 万 token 约 17 元人民币,输出 100 万 token 约 70 元人民币(按 1 美元 ≈ 7 元人民币计算)。
2.2 Claude 系列(Anthropic)
| 模型 | 输入价格($/1M tokens) | 输出价格($/1M tokens) | 特点 |
|---|---|---|---|
| Claude 3.5 Sonnet | $3 | $15 | 高性能,性价比好 |
| Claude 3.5 Haiku | $0.8 | $4 | 轻量,速度快 |
| Claude 3 Opus | $15 | $75 | 最高性能,上下文 200K |
| Claude 3 Sonnet | $3 | $15 | 平衡型 |
2.3 Google Gemini 系列
| 模型 | 输入价格($/1M tokens) | 输出价格($/1M tokens) | 特点 |
|---|---|---|---|
| Gemini 2.0 Flash | $0.1 | $0.4 | 超低价,速度快 |
| Gemini 1.5 Pro | $1.25 | $5 | 中等价格,上下文 1M |
2.4 国产模型参考
| 模型 | 大概价格区间 | 特点 |
|---|---|---|
| 通义千问(Qwen) | 极低至中等 | 阿里云,价格亲民 |
| 文心一言(ERNIE) | 中等 | 百度云 |
| 智谱 GLM | 较低 | 清华大学技术 |
| DeepSeek | 极低 | 性价比极高 |
提示:以上价格为参考,实际价格请以各平台官网最新定价为准。AI 模型的价格更新频繁(基本都在降价)。
3. 实际成本计算示例
3.1 简单对话
场景:用户问一个 100 字的问题,LLM 回答 200 字。
中文估算:
- 用户输入 ≈ 100 字 ≈ 50 token
- LLM 输出 ≈ 200 字 ≈ 100 token
- 总计 ≈ 150 token
GPT-4o 费用:
- 输入:50 / 1,000,000 × $2.5 = $0.000125
- 输出:100 / 1,000,000 × $10 = $0.001
- 总费用 ≈ $0.001125 ≈ 0.008 元人民币
3.2 RAG 场景(上下文较长)
场景:检索 5 个文档块(共 2000 token)作为上下文,用户问题 100 字,LLM 回答 300 字。
- 上下文:≈ 2000 token
- 用户问题:≈ 50 token
- LLM 输出:≈ 150 token
GPT-4o 费用:
- 输入:(2000 + 50) / 1M × $2.5 = $0.005125
- 输出:150 / 1M × $10 = $0.0015
- 总费用 ≈ $0.006625 ≈ 0.046 元人民币
启示:RAG 的成本主要在上下文(输入)Token,回答本身反而便宜。
3.3 长文档分析场景
场景:分析一篇 10000 字的文档,总结出 500 字的摘要。
- 输入文档:≈ 5000 token
- 总结:≈ 250 token
GPT-4o 费用:
- 输入:5000 / 1M × $2.5 = $0.0125
- 输出:250 / 1M × $10 = $0.0025
- 总费用 ≈ $0.015 ≈ 0.1 元人民币
4. 降低成本的方法
4.1 选择合适的模型
| 任务 | 推荐模型 | 原因 |
|---|---|---|
| 简单分类、标签 | GPT-4o mini / Gemini Flash | 足够用,没必要用贵的 |
| 日常对话 | GPT-4o / Claude Haiku | 性价比高 |
| 复杂推理 | GPT-4o / Claude 3.5 Sonnet | 需要更强的推理能力 |
| 创意写作 | GPT-4o / Claude Sonnet | 需要更好的表达能力 |
4.2 减少 Token 消耗
| 方法 | 说明 |
|---|---|
| 精简 Prompt | 不要写冗长的 Prompt,越短越好 |
| 用英文 | 英文 Token 消耗约为中文的一半 |
| 摘要压缩上下文 | 长上下文先做摘要,再传给 LLM |
| 限制输出长度 | 通过 Prompt 要求 LLM 输出简洁 |
| 缓存 | 对于相同的系统 Prompt,使用厂商的缓存功能(如 OpenAI Cache) |
4.3 使用厂商缓存
OpenAI Prompt Caching:
- 把重复使用的上下文(如 System Prompt + RAG 文档)缓存起来
- 后续调用只需支付新增 Token 的费用
- 缓存的输入成本比正常输入降低 50%
4.4 批量处理
多用户/多任务时,批量发送请求比逐个调用更高效(某些厂商有批量折扣)。
5. Token 与 context window 的费用关系
一个常见误解:context window 越大,每次调用费用越高。
实际上不是这样。
LLM API 的计费只看你实际用了多少 Token,和你能用的 context window 大小无关。
- context window = 8K 的模型和 128K 的模型,单价可能相同
- 128K 只是意味着你最多可以输入这么多,但不用不花钱
类比:context window 就像你的手机套餐流量上限(128GB),你只用 500MB 就只付 500MB 的钱。
6. Token 成本 vs 本地部署
对于大规模使用的场景,很多人会考虑本地部署开源模型(如 Llama、Qwen):
| 对比项 | API 调用(云端) | 本地部署 |
|---|---|---|
| 前期成本 | 几乎为零 | 需要购买 GPU(几万~几十万) |
| 使用成本 | 按量付费,长期可能较高 | 几乎为零(电费 + 维护) |
| 数据安全 | 数据发送第三方 | 数据完全本地,安全性高 |
| 模型能力 | 最顶尖模型 | 略弱于最强闭源模型 |
| 适用规模 | 中小规模使用 | 大规模、高频使用 |
经验法则:
- 月调用量 < 1000 万 token → API 更划算
- 月调用量 > 1 亿 token → 本地部署可能更划算
- 数据敏感场景 → 必须本地部署
7. 总结
| 问题 | 答案 |
|---|---|
| Token 怎么计费? | 输入 Token × 输入单价 + 输出 Token × 输出单价 |
| 1 Token 等于多少字? | 英文约 0.75 词,中文约 1.5~2 字 |
| 最省钱的方案? | 根据任务选择合适的模型,不要过度使用最贵的模型 |
| context window 大影响费用吗? | 不影响,只按实际使用的 Token 计费 |
| 本地部署何时更划算? | 大规模使用 + 数据敏感 |
核心原则:用合适的模型做合适的事。 不是每个任务都需要 GPT-4o,用更轻量的模型可以大幅降低成本。