AI 通关攻略 · 第 9 关 | Token 定价:AI 是怎么收费的,怎么用才省钱

5 阅读5分钟

AI 通关攻略 · 第 9 关 | Token 定价:AI 是怎么收费的,怎么用才省钱

故事从一个常见困惑说起

使用 LLM API 是按 Token 计费的——输入和输出都要付费。

理解 Token 的定价逻辑,可以帮助你:

  • 控制成本:知道什么操作会产生多少费用
  • 优化使用:通过减少 Token 消耗来省钱
  • 选型决策:不同模型、不同场景该选什么方案

1. Token 成本的基础知识

1.1 计费方式

大多数 LLM API 的计费方式是:

总费用 = 输入 Token 数 × 输入单价 + 输出 Token 数 × 输出单价

注意:输入和输出的单价通常是不同的。一般输出比输入贵(因为输出需要更多计算资源)。

1.2 Token 估算

语言平均每 Token 字符数
英文约 0.75 ~ 1 个单词(每 1000 token ≈ 750 词)
中文约 1.5 ~ 2 个汉字(每 1000 token ≈ 500~700 字)

1.3 估算工具

实际使用中,可以用以下方式估算:

  • Token 计数器:OpenAI、Cohere 等都提供官方 API 端点来计算 Token 数
  • 字符估算:作为粗略估算,中文每 2 个字符 ≈ 1 个 Token
  • Token 预算:在发送给 LLM 之前,先计算预计 Token 数,避免超出 context window

2. 主流 LLM 的定价(截至 2026 年)

2.1 OpenAI 系列

模型输入价格($/1M tokens)输出价格($/1M tokens)特点
GPT-4o$2.5$10最新全能模型,性价比高
GPT-4o mini$0.15$0.60轻量版,成本极低
GPT-4 Turbo$10$30高性能,上下文 128K
GPT-4$30$60高性能,上下文 8K
GPT-3.5 Turbo$0.5$1.5最便宜,适合简单任务

百万 token 费用参考:GPT-4o 输入 100 万 token 约 17 元人民币,输出 100 万 token 约 70 元人民币(按 1 美元 ≈ 7 元人民币计算)。

2.2 Claude 系列(Anthropic)

模型输入价格($/1M tokens)输出价格($/1M tokens)特点
Claude 3.5 Sonnet$3$15高性能,性价比好
Claude 3.5 Haiku$0.8$4轻量,速度快
Claude 3 Opus$15$75最高性能,上下文 200K
Claude 3 Sonnet$3$15平衡型

2.3 Google Gemini 系列

模型输入价格($/1M tokens)输出价格($/1M tokens)特点
Gemini 2.0 Flash$0.1$0.4超低价,速度快
Gemini 1.5 Pro$1.25$5中等价格,上下文 1M

2.4 国产模型参考

模型大概价格区间特点
通义千问(Qwen)极低至中等阿里云,价格亲民
文心一言(ERNIE)中等百度云
智谱 GLM较低清华大学技术
DeepSeek极低性价比极高

提示:以上价格为参考,实际价格请以各平台官网最新定价为准。AI 模型的价格更新频繁(基本都在降价)。


3. 实际成本计算示例

3.1 简单对话

场景:用户问一个 100 字的问题,LLM 回答 200 字。

中文估算:
- 用户输入 ≈ 100 字 ≈ 50 token
- LLM 输出 ≈ 200 字 ≈ 100 token
- 总计 ≈ 150 token

GPT-4o 费用:
- 输入:50 / 1,000,000 × $2.5 = $0.000125
- 输出:100 / 1,000,000 × $10 = $0.001
- 总费用 ≈ $0.001125 ≈ 0.008 元人民币

3.2 RAG 场景(上下文较长)

场景:检索 5 个文档块(共 2000 token)作为上下文,用户问题 100 字,LLM 回答 300 字。

- 上下文:≈ 2000 token
- 用户问题:≈ 50 token
- LLM 输出:≈ 150 token

GPT-4o 费用:
- 输入:(2000 + 50) / 1M × $2.5 = $0.005125
- 输出:150 / 1M × $10 = $0.0015
- 总费用 ≈ $0.006625 ≈ 0.046 元人民币

启示:RAG 的成本主要在上下文(输入)Token,回答本身反而便宜。

3.3 长文档分析场景

场景:分析一篇 10000 字的文档,总结出 500 字的摘要。

- 输入文档:≈ 5000 token
- 总结:≈ 250 token

GPT-4o 费用:
- 输入:5000 / 1M × $2.5 = $0.0125
- 输出:250 / 1M × $10 = $0.0025
- 总费用 ≈ $0.015 ≈ 0.1 元人民币

4. 降低成本的方法

4.1 选择合适的模型

任务推荐模型原因
简单分类、标签GPT-4o mini / Gemini Flash足够用,没必要用贵的
日常对话GPT-4o / Claude Haiku性价比高
复杂推理GPT-4o / Claude 3.5 Sonnet需要更强的推理能力
创意写作GPT-4o / Claude Sonnet需要更好的表达能力

4.2 减少 Token 消耗

方法说明
精简 Prompt不要写冗长的 Prompt,越短越好
用英文英文 Token 消耗约为中文的一半
摘要压缩上下文长上下文先做摘要,再传给 LLM
限制输出长度通过 Prompt 要求 LLM 输出简洁
缓存对于相同的系统 Prompt,使用厂商的缓存功能(如 OpenAI Cache)

4.3 使用厂商缓存

OpenAI Prompt Caching

  • 把重复使用的上下文(如 System Prompt + RAG 文档)缓存起来
  • 后续调用只需支付新增 Token 的费用
  • 缓存的输入成本比正常输入降低 50%

4.4 批量处理

多用户/多任务时,批量发送请求比逐个调用更高效(某些厂商有批量折扣)。


5. Token 与 context window 的费用关系

一个常见误解:context window 越大,每次调用费用越高。

实际上不是这样。

LLM API 的计费只看你实际用了多少 Token,和你能用的 context window 大小无关。

  • context window = 8K 的模型和 128K 的模型,单价可能相同
  • 128K 只是意味着你最多可以输入这么多,但不用不花钱

类比:context window 就像你的手机套餐流量上限(128GB),你只用 500MB 就只付 500MB 的钱。


6. Token 成本 vs 本地部署

对于大规模使用的场景,很多人会考虑本地部署开源模型(如 Llama、Qwen):

对比项API 调用(云端)本地部署
前期成本几乎为零需要购买 GPU(几万~几十万)
使用成本按量付费,长期可能较高几乎为零(电费 + 维护)
数据安全数据发送第三方数据完全本地,安全性高
模型能力最顶尖模型略弱于最强闭源模型
适用规模中小规模使用大规模、高频使用

经验法则

  • 月调用量 < 1000 万 token → API 更划算
  • 月调用量 > 1 亿 token → 本地部署可能更划算
  • 数据敏感场景 → 必须本地部署

7. 总结

问题答案
Token 怎么计费?输入 Token × 输入单价 + 输出 Token × 输出单价
1 Token 等于多少字?英文约 0.75 词,中文约 1.5~2 字
最省钱的方案?根据任务选择合适的模型,不要过度使用最贵的模型
context window 大影响费用吗?不影响,只按实际使用的 Token 计费
本地部署何时更划算?大规模使用 + 数据敏感

核心原则用合适的模型做合适的事。 不是每个任务都需要 GPT-4o,用更轻量的模型可以大幅降低成本。