AI 通关攻略 · 第 9 关 | Token 定价：AI 是怎么收费的，怎么用才省钱AI 通关攻略 · 第 9 关

AI 通关攻略 · 第 9 关 | Token 定价：AI 是怎么收费的，怎么用才省钱

故事从一个常见困惑说起

使用 LLM API 是按 Token 计费的——输入和输出都要付费。

理解 Token 的定价逻辑，可以帮助你：

控制成本：知道什么操作会产生多少费用
优化使用：通过减少 Token 消耗来省钱
选型决策：不同模型、不同场景该选什么方案

1. Token 成本的基础知识

1.1 计费方式

大多数 LLM API 的计费方式是：

总费用 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价

注意：输入和输出的单价通常是不同的。一般输出比输入贵（因为输出需要更多计算资源）。

1.2 Token 估算

语言	平均每 Token 字符数
英文	约 0.75 ~ 1 个单词（每 1000 token ≈ 750 词）
中文	约 1.5 ~ 2 个汉字（每 1000 token ≈ 500~700 字）

1.3 估算工具

实际使用中，可以用以下方式估算：

Token 计数器：OpenAI、Cohere 等都提供官方 API 端点来计算 Token 数
字符估算：作为粗略估算，中文每 2 个字符 ≈ 1 个 Token
Token 预算：在发送给 LLM 之前，先计算预计 Token 数，避免超出 context window

2. 主流 LLM 的定价（截至 2026 年）

2.1 OpenAI 系列

模型	输入价格（$/1M tokens）	输出价格（$/1M tokens）	特点
GPT-4o	$2.5	$10	最新全能模型，性价比高
GPT-4o mini	$0.15	$0.60	轻量版，成本极低
GPT-4 Turbo	$10	$30	高性能，上下文 128K
GPT-4	$30	$60	高性能，上下文 8K
GPT-3.5 Turbo	$0.5	$1.5	最便宜，适合简单任务

百万 token 费用参考：GPT-4o 输入 100 万 token 约 17 元人民币，输出 100 万 token 约 70 元人民币（按 1 美元 ≈ 7 元人民币计算）。

2.2 Claude 系列（Anthropic）

模型	输入价格（$/1M tokens）	输出价格（$/1M tokens）	特点
Claude 3.5 Sonnet	$3	$15	高性能，性价比好
Claude 3.5 Haiku	$0.8	$4	轻量，速度快
Claude 3 Opus	$15	$75	最高性能，上下文 200K
Claude 3 Sonnet	$3	$15	平衡型

2.3 Google Gemini 系列

模型	输入价格（$/1M tokens）	输出价格（$/1M tokens）	特点
Gemini 2.0 Flash	$0.1	$0.4	超低价，速度快
Gemini 1.5 Pro	$1.25	$5	中等价格，上下文 1M

2.4 国产模型参考

模型	大概价格区间	特点
通义千问（Qwen）	极低至中等	阿里云，价格亲民
文心一言（ERNIE）	中等	百度云
智谱 GLM	较低	清华大学技术
DeepSeek	极低	性价比极高

提示：以上价格为参考，实际价格请以各平台官网最新定价为准。AI 模型的价格更新频繁（基本都在降价）。

3. 实际成本计算示例

3.1 简单对话

场景：用户问一个 100 字的问题，LLM 回答 200 字。

中文估算：
- 用户输入 ≈ 100 字 ≈ 50 token
- LLM 输出 ≈ 200 字 ≈ 100 token
- 总计 ≈ 150 token

GPT-4o 费用：
- 输入：50 / 1,000,000 × $2.5 = $0.000125
- 输出：100 / 1,000,000 × $10 = $0.001
- 总费用 ≈ $0.001125 ≈ 0.008 元人民币

3.2 RAG 场景（上下文较长）

场景：检索 5 个文档块（共 2000 token）作为上下文，用户问题 100 字，LLM 回答 300 字。

- 上下文：≈ 2000 token
- 用户问题：≈ 50 token
- LLM 输出：≈ 150 token

GPT-4o 费用：
- 输入：(2000 + 50) / 1M × $2.5 = $0.005125
- 输出：150 / 1M × $10 = $0.0015
- 总费用 ≈ $0.006625 ≈ 0.046 元人民币

启示：RAG 的成本主要在上下文（输入）Token，回答本身反而便宜。

3.3 长文档分析场景

场景：分析一篇 10000 字的文档，总结出 500 字的摘要。

- 输入文档：≈ 5000 token
- 总结：≈ 250 token

GPT-4o 费用：
- 输入：5000 / 1M × $2.5 = $0.0125
- 输出：250 / 1M × $10 = $0.0025
- 总费用 ≈ $0.015 ≈ 0.1 元人民币

4. 降低成本的方法

4.1 选择合适的模型

任务	推荐模型	原因
简单分类、标签	GPT-4o mini / Gemini Flash	足够用，没必要用贵的
日常对话	GPT-4o / Claude Haiku	性价比高
复杂推理	GPT-4o / Claude 3.5 Sonnet	需要更强的推理能力
创意写作	GPT-4o / Claude Sonnet	需要更好的表达能力

4.2 减少 Token 消耗

方法	说明
精简 Prompt	不要写冗长的 Prompt，越短越好
用英文	英文 Token 消耗约为中文的一半
摘要压缩上下文	长上下文先做摘要，再传给 LLM
限制输出长度	通过 Prompt 要求 LLM 输出简洁
缓存	对于相同的系统 Prompt，使用厂商的缓存功能（如 OpenAI Cache）

4.3 使用厂商缓存

OpenAI Prompt Caching：

把重复使用的上下文（如 System Prompt + RAG 文档）缓存起来
后续调用只需支付新增 Token 的费用
缓存的输入成本比正常输入降低 50%

4.4 批量处理

多用户/多任务时，批量发送请求比逐个调用更高效（某些厂商有批量折扣）。

5. Token 与 context window 的费用关系

一个常见误解：context window 越大，每次调用费用越高。

实际上不是这样。

LLM API 的计费只看你实际用了多少 Token，和你能用的 context window 大小无关。

context window = 8K 的模型和 128K 的模型，单价可能相同
128K 只是意味着你最多可以输入这么多，但不用不花钱

类比：context window 就像你的手机套餐流量上限（128GB），你只用 500MB 就只付 500MB 的钱。

6. Token 成本 vs 本地部署

对于大规模使用的场景，很多人会考虑本地部署开源模型（如 Llama、Qwen）：

对比项	API 调用（云端）	本地部署
前期成本	几乎为零	需要购买 GPU（几万~几十万）
使用成本	按量付费，长期可能较高	几乎为零（电费 + 维护）
数据安全	数据发送第三方	数据完全本地，安全性高
模型能力	最顶尖模型	略弱于最强闭源模型
适用规模	中小规模使用	大规模、高频使用

经验法则：

月调用量 < 1000 万 token → API 更划算

月调用量 > 1 亿 token → 本地部署可能更划算

数据敏感场景 → 必须本地部署

7. 总结

问题	答案
Token 怎么计费？	输入 Token × 输入单价 + 输出 Token × 输出单价
1 Token 等于多少字？	英文约 0.75 词，中文约 1.5~2 字
最省钱的方案？	根据任务选择合适的模型，不要过度使用最贵的模型
context window 大影响费用吗？	不影响，只按实际使用的 Token 计费
本地部署何时更划算？	大规模使用 + 数据敏感

核心原则：用合适的模型做合适的事。 不是每个任务都需要 GPT-4o，用更轻量的模型可以大幅降低成本。