90%的人用 AI 都没搞清楚的 Token 账单,这篇讲清楚

0 阅读12分钟

向AI弃权最近持续在跟一条线:
很多人已经不再停留在“AI 好不好玩”“提示词怎么写更神”这个阶段了,而是开始进入真正的工作流阶段。

一旦进入工作流阶段,问题就会立刻变得很现实:

  • 为什么同样是用 AI,有的人花得很稳,有的人一聊就肉疼?
  • 为什么同样是一个模型,换个平台,价格感受差这么多?
  • 为什么有人开始研究缓存命中、usage、provider、local model,而不是只盯着模型排行榜?

这篇文章想系统讲清楚 6 件事:

  1. token(词元) 到底是什么
  2. 为什么你上传文件、长提示词、历史对话都会一起计费
  3. 缓存命中 为什么会直接影响账单
  4. 官方文档里的 1.25x / 2x / 0.1x 到底是什么意思
  5. 中转站到底是不是真的便宜
  6. 为什么到了 2026 年,认真使用 AI 的人开始重新看本地部署

一、Token(词元)到底是什么:你到底在为什么付钱?

很多人不是不知道 AI 按量计费。
大家真正糊涂的地方是:

  • 知道“每百万 token 多少钱”
  • 但不知道中文 token 大概怎么换算
  • 更不知道自己上传文件、截图 OCR、长提示词、历史对话、系统上下文,这些东西都有可能一起算进去

token 的官方中文常见译法叫 词元
先别急着背术语,先记一个更有用的白话:

token 就是模型内部拿来计费的最小颗粒。

它不是“一个字”,也不是“一个词”,而是模型把你输入和输出切碎以后,用来计数的那种小块。

如果只是想建立一个够用的成本直觉,可以先这么估:

  • 中文里,先粗暴按 1 个汉字≈1 个 token
  • 英文里,短词常常就是 1 个 token,长词会被拆开;很多时候大概 4 到 5 个英文字符≈1 个 token

所以:

  • 1M token 对中文来说,大概是 70 万到 100 万汉字
  • 对英文来说,大概是 50 万到 75 万单词

这不是 tokenizer 级别的精确换算,但对估账已经很够用了。
因为普通人最缺的,不是更精确的切分器,而是先知道“这东西到底有多大”。

很多人为什么会算成糊涂账?

因为你以为自己只问了一句话,模型实际上看到的是一整包上下文。

比如你表面上只发了一句:

帮我从这份合同里挑 3 个最危险的点。

但模型真正收到的,可能包括:

  • 20 页合同全文
  • 上一轮让它做的分类标准
  • 这一轮的新问题
  • 平台默认挂上的系统指令

最后计费的,不是这十几个字,而是这一整包东西。

这也是为什么很多人账单贵,不是因为“问得太多”,而是因为:

  • 每次都让模型重读同一批资料
  • 长提示词写得越来越长
  • 历史对话带得越来越多
  • 输出也越来越长

还要再补一个常识:

很多模型“说话”比“听话”贵得多。

也就是说,让模型读懂一批材料,和让模型生成一大段长回答,很多时候不是同一个价格级别。

如果你只记一句话,我希望是这句:

AI 不是只按“结果”收费,它是在按“你喂进去多少、它吐出来多少、有没有重复读同样的东西”收费。

token-kimi-official.png

二、缓存命中是什么:为什么第二轮通常应该更便宜?

缓存命中,是 2026 年普通人最该补的一点 AI 账单常识。

你可以把它想成这样:

  • 第一次,你把一份很长的资料扔给 AI,它要老老实实读一遍
  • 第二次,你还是围绕这份资料继续追问,理论上它就不该再从头重读一遍

如果平台或 API 支持缓存,模型就会把前面那批上下文“记一小会儿”。
后面你继续追问时,它不是重新通读,而是直接利用前面已经处理过的内容。

这就叫 缓存命中

说白了就是:

  • 第一次像“通读整本书”
  • 后面应该更像“翻书签”

如果第二轮第三轮还跟第一轮一样贵,那你就该警惕了。

几家主流模型的缓存价格差,一眼看懂

美元统一按 1 美元≈7 元人民币 粗算,只追求价格感,不追求财务审计精度。

模型母公司普通输入价缓存命中价粗算人民币感受
Claude Sonnet 4.6(克劳德 Sonnet 4.6)Anthropic$3.00 / 百万 token$0.30 / 百万 token约 ¥21 变 ¥2.1
GPT-5.4(GPT-5.4)OpenAI$2.50 / 百万 token$0.25 / 百万 token约 ¥17.5 变 ¥1.75
Gemini 2.5 Pro(Gemini 2.5 Pro)Google$1.25 / 百万 token$0.125 / 百万 token约 ¥8.75 变 ¥0.88
DeepSeek-V3.2(深度求索 V3.2)DeepSeek$0.28 / 百万 token$0.028 / 百万 token约 ¥1.96 变 ¥0.20
Kimi K2.5(Kimi K2.5)Moonshot AI¥4.00 / 百万 token¥0.70 / 百万 token¥4 变 ¥0.7

这张表最重要的不是背数字,而是形成一个直觉:

同样是输入 token,命中缓存以后,价格往往只剩原来的一小部分。

fig2-cache-pricing-board.png

一般在哪里看缓存命中?

最有用的不是“背价格页”,而是知道去哪里看返回字段。

常见平台大概是这样:

  • Anthropic / Claude API
    usage 里的
    cache_creation_input_tokenscache_read_input_tokens

  • OpenAI API
    usage.prompt_tokens_details.cached_tokens

  • Google Gemini API
    usage_metadata

  • DeepSeek API
    prompt_cache_hit_tokensprompt_cache_miss_tokens

如果你现在用的是前台产品、客户端或中转站,看不到这些字段,也至少要建立一个最朴素的判断:

同一批资料、同一类追问,如果第二轮第三轮还跟第一轮一样贵,那大概率要么没命中,要么平台根本没把账单逻辑摊开给你看。


三、倍率到底是什么意思:1.25x、2x、0.1x 别再死背了

很多人第一次看到这些词就会头大:

  • 1.25x
  • 2x
  • 0.1x
  • 积分倍率
  • 模型倍率

其实你先把它拆成两种就够了。

1. 官方倍率

这类倍率,多半是在讲缓存。

比如官方会写:

  • 5 分钟缓存写入:基础输入价格的 1.25x
  • 1 小时缓存写入:基础输入价格的 2x
  • 缓存读取:基础输入价格的 0.1x

翻译成人话就是:

  • 第一次让模型把这批资料记住,会比普通输入贵一点
  • 如果希望它记得更久,第一次写进去会更贵一点
  • 但后面只要命中缓存,再围绕同一批资料继续问,就会便宜很多

如果还是抽象,我们拿一笔假设账来算。

假设某模型基础输入价是 10 元 / 百万 token

  • 1.25x = 第一次写缓存,按 12.5 元
  • 2x = 想让它记久一点,按 20 元
  • 0.1x = 后面命中缓存,只按 1 元

所以缓存不是“白送记忆”,而是:

第一次多花一点,后面省一大截。

2. 平台倍率

另一种倍率,经常出现在第三方平台和中转站里。

比如:

  • 10 元换多少积分
  • 某模型倍率 3x
  • 某会员解锁高阶模型

这类倍率很多时候不是模型本身的属性,而是平台把:

  • 官方成本
  • 路由费
  • 并发成本
  • 自己的利润

一起揉成了一个你不容易算清的数字。

所以它最大的坑不是“贵一点”,而是:

你根本不知道自己到底贵在模型,还是贵在平台包装。


四、中转站真的更便宜吗?

这个问题不能一刀切。
更真实的答案是:

有些中转站看起来便宜,但不一定真的便宜;有些官方单价看起来高,但总成本未必更高。

别只看充值页,要一起看这些:

  • 上下文有没有被阉割
  • 模型版本是不是偷偷降了
  • usage 能不能看见
  • 高峰期稳不稳
  • 会不会频繁重试和重开

很多时候,真正贵的不是那几分钱,而是:

  • 反复重跑
  • 路由不稳定
  • 版本偷偷变了
  • 你根本不知道自己是贵在模型本身,还是贵在缓存没命中

像 OpenRouter 这种统一入口,更适合理解成:

  • 多模型路由层
  • 统一接口层
  • 对比 / 切换工具

而不是简单理解成“哪个更便宜的替身”。


五、普通人怎么省钱:Jeremy 那条发帖真正值得学什么?

前几天,Jeremy Nguyen 在 X 上有一条关于 Claude Code 缓存命中和 token 用量的发帖,在科技圈里传播很广。 jeremy-x-post.png 它真正值得普通人学的,不是某个命令本身,而是后面的判断方式:

很多时候,账单突然变贵,不是模型突然变贵了,而是缓存没命中,或者你的上下文组织方式把缓存打乱了。

比起照着某条命令原样抄,更值得学的是这几件事:

1. 把长期不变的资料固定下来

每次和 AI 说话时,前面尽量放长期固定不变的内容:

  • 公司介绍
  • 产品资料
  • 写作风格
  • 项目背景

后面再放这次新增的问题和变化。
这样前面那大块更容易被反复利用。

2. 知识库别每次重传

公司 FAQ、产品背景、长期规则、项目说明,尽量沉淀成一个长期维护的知识库或总文档。
每次新提问,只追加这次真的变化的部分,不要整包重发。

3. 先整理,再追问

面对几十页材料时,不要一上来就反复问细节。
更省钱的顺序通常是:

  1. 先让 AI 整理出摘要 / 提纲 / 编号笔记
  2. 后面大多数追问,都基于这份更短的整理版继续

4. 同一批资料,别动不动开新线程

如果你聊的是同一个项目、同一批采访记录、同一份合同,动不动新建对话,很容易把“翻书签”重新变回“读整本书”。

5. 觉得突然变贵时,先去看 usage 或 cost 页面

不要只盯余额。
先看缓存字段是不是掉成了 0,再判断是不是平台、线程习惯或上传方式出了问题。

一句话说透:

省钱不是少用,而是别让模型反复白读同样的东西。


六、为什么现在该认真看本地部署?

很多人以前对本地部署根本没兴趣。
一提到它,脑子里浮现的就是:

  • 黑框命令行
  • 装环境
  • 折腾显卡
  • 看起来像另一个专业世界

但 2026 年不一样的地方在于:

越来越多人已经跑通了自己的 AI 工作流,每个月都在稳定地消耗:

  • 模型
  • 上下文
  • 缓存
  • 账单

到了这个阶段,我们不得不承认:

本地部署已经不只是极客爱好,而是开始变成解决算力账单的一种现实选项。

特别是像 Unsloth Studio 这样的工具出现以后,本地模型开始被图形化、产品化。

unsloth-official.png 你不需要懂很多复杂代码,点几下鼠标就能:

  • 下载模型
  • 运行模型
  • 对比模型
  • 做轻量训练或实验

这意味着,开源模型不再只是程序员的玩具,普通人也终于能碰得到了。


七、2026 本地模型怎么选?

这张表不是性能排行榜,而是普通人视角的“我这台机器大概先该试谁”。

模型大概门槛更适合什么社区口碑
Qwen3-8B(通义千问 Qwen3-8B)16GB 内存 / 8GB 显存日常问答、中文写作、轻量代码辅助中文强、均衡、很适合闭眼先试
Gemma 3 12B(Gemma 3 12B)24GB+ 总可用内存更稳多模态问答、本地助手功能完整,但 12B 比想象中更吃资源
DeepSeek-R1-Distill-Qwen-14B(深度求索 R1 蒸馏版 Qwen 14B)8GB 显存可试,24GB 更舒服推理、数学、代码分析性价比高,很有“会先想一想”的感觉
Qwen3-30B-A3B(通义千问 Qwen3-30B-A3B)24GB 显存更理想长文档分析、复杂代码诊断很多玩家眼里的中大型“甜点位”
Llama 4 Scout(Llama 4 Scout)64GB+ 统一内存 / 高端本地机超长上下文、本地重型任务生态强,但不是普通人的闭眼第一选择

如果你只是普通用户,最稳的顺序通常不是“先上最大模型”,而是:

  1. 先用 Qwen3-8B
  2. 再看自己是不是真的需要推理更强的 14B
  3. 再决定要不要上 30B 或更重的模型

结尾:到了 2026 年,会看账单也是基本功

我们以前总说,AI 时代最重要的是学会提问。
这句话当然没错。

但到了今天,只会写 Prompt,已经不够了。

你还得慢慢补上几项真正决定长期体验的能力:

  • 会看 token(词元)账单
  • 会看缓存命中
  • 会分辨官方倍率和平台倍率
  • 会判断中转站到底便宜在哪、坑在哪
  • 也知道什么时候该继续用云端,什么时候该认真看本地部署

这不是技术宅的兴趣题,而是普通人用 AI 的生活常识。

这里是向AI弃权。
我们接下来会持续写这条线:不再只讨论哪个模型又变聪明了,而是把 真实工作流、真实成本、真实替代路线 讲明白。

因为对普通人来说,真正值钱的不是会背模型名字,而是知道:

  • 什么时候该用平台
  • 什么时候该盯 usage
  • 什么时候该认真考虑把一部分能力收回到自己手里

可核实来源

  • Moonshot Kimi 官方文档与价格页
  • Anthropic Prompt Caching / Pricing 官方文档
  • OpenAI API Pricing 官方页
  • Google Gemini Pricing / Caching 官方文档
  • DeepSeek API Pricing 官方文档
  • Jeremy Nguyen 在 X 上关于 Claude Code 缓存和 token 的公开发帖
  • OpenRouter Pricing / FAQ 官方页
  • Unsloth Studio 官方说明页
  • Qwen / Gemma / DeepSeek / Llama 官方页面与社区口碑样本