90%的人用 AI 都没搞清楚的 Token 账单，这篇讲清楚token 的缓存命中、倍率你搞不清，说明你AI提示词和

向AI弃权最近持续在跟一条线：
很多人已经不再停留在“AI 好不好玩”“提示词怎么写更神”这个阶段了，而是开始进入真正的工作流阶段。

一旦进入工作流阶段，问题就会立刻变得很现实：

为什么同样是用 AI，有的人花得很稳，有的人一聊就肉疼？
为什么同样是一个模型，换个平台，价格感受差这么多？
为什么有人开始研究缓存命中、usage、provider、local model，而不是只盯着模型排行榜？

这篇文章想系统讲清楚 6 件事：

token（词元） 到底是什么
为什么你上传文件、长提示词、历史对话都会一起计费
缓存命中 为什么会直接影响账单
官方文档里的 1.25x / 2x / 0.1x 到底是什么意思
中转站到底是不是真的便宜
为什么到了 2026 年，认真使用 AI 的人开始重新看本地部署

一、Token（词元）到底是什么：你到底在为什么付钱？

很多人不是不知道 AI 按量计费。
大家真正糊涂的地方是：

知道“每百万 token 多少钱”
但不知道中文 token 大概怎么换算
更不知道自己上传文件、截图 OCR、长提示词、历史对话、系统上下文，这些东西都有可能一起算进去

token 的官方中文常见译法叫词元。
先别急着背术语，先记一个更有用的白话：

token 就是模型内部拿来计费的最小颗粒。

它不是“一个字”，也不是“一个词”，而是模型把你输入和输出切碎以后，用来计数的那种小块。

如果只是想建立一个够用的成本直觉，可以先这么估：

中文里，先粗暴按 1 个汉字≈1 个 token
英文里，短词常常就是 1 个 token，长词会被拆开；很多时候大概 4 到 5 个英文字符≈1 个 token

所以：

1M token 对中文来说，大概是 70 万到 100 万汉字
对英文来说，大概是 50 万到 75 万单词

这不是 tokenizer 级别的精确换算，但对估账已经很够用了。
因为普通人最缺的，不是更精确的切分器，而是先知道“这东西到底有多大”。

很多人为什么会算成糊涂账？

因为你以为自己只问了一句话，模型实际上看到的是一整包上下文。

比如你表面上只发了一句：

帮我从这份合同里挑 3 个最危险的点。

但模型真正收到的，可能包括：

20 页合同全文
上一轮让它做的分类标准
这一轮的新问题
平台默认挂上的系统指令

最后计费的，不是这十几个字，而是这一整包东西。

这也是为什么很多人账单贵，不是因为“问得太多”，而是因为：

每次都让模型重读同一批资料
长提示词写得越来越长
历史对话带得越来越多
输出也越来越长

还要再补一个常识：

很多模型“说话”比“听话”贵得多。

也就是说，让模型读懂一批材料，和让模型生成一大段长回答，很多时候不是同一个价格级别。

如果你只记一句话，我希望是这句：

AI 不是只按“结果”收费，它是在按“你喂进去多少、它吐出来多少、有没有重复读同样的东西”收费。

二、缓存命中是什么：为什么第二轮通常应该更便宜？

缓存命中，是 2026 年普通人最该补的一点 AI 账单常识。

你可以把它想成这样：

第一次，你把一份很长的资料扔给 AI，它要老老实实读一遍
第二次，你还是围绕这份资料继续追问，理论上它就不该再从头重读一遍

如果平台或 API 支持缓存，模型就会把前面那批上下文“记一小会儿”。
后面你继续追问时，它不是重新通读，而是直接利用前面已经处理过的内容。

这就叫 缓存命中。

说白了就是：

第一次像“通读整本书”
后面应该更像“翻书签”

如果第二轮第三轮还跟第一轮一样贵，那你就该警惕了。

几家主流模型的缓存价格差，一眼看懂

美元统一按 1 美元≈7 元人民币 粗算，只追求价格感，不追求财务审计精度。

模型	母公司	普通输入价	缓存命中价	粗算人民币感受
Claude Sonnet 4.6（克劳德 Sonnet 4.6）	Anthropic	$3.00 / 百万 token	$0.30 / 百万 token	约 ¥21 变 ¥2.1
GPT-5.4（GPT-5.4）	OpenAI	$2.50 / 百万 token	$0.25 / 百万 token	约 ¥17.5 变 ¥1.75
Gemini 2.5 Pro（Gemini 2.5 Pro）	Google	$1.25 / 百万 token	$0.125 / 百万 token	约 ¥8.75 变 ¥0.88
DeepSeek-V3.2（深度求索 V3.2）	DeepSeek	$0.28 / 百万 token	$0.028 / 百万 token	约 ¥1.96 变 ¥0.20
Kimi K2.5（Kimi K2.5）	Moonshot AI	¥4.00 / 百万 token	¥0.70 / 百万 token	¥4 变 ¥0.7

这张表最重要的不是背数字，而是形成一个直觉：

同样是输入 token，命中缓存以后，价格往往只剩原来的一小部分。

一般在哪里看缓存命中？

最有用的不是“背价格页”，而是知道去哪里看返回字段。

常见平台大概是这样：

Anthropic / Claude API
看 usage 里的
cache_creation_input_tokens、cache_read_input_tokens
OpenAI API
看 usage.prompt_tokens_details.cached_tokens
Google Gemini API
看 usage_metadata
DeepSeek API
看 prompt_cache_hit_tokens 和 prompt_cache_miss_tokens

如果你现在用的是前台产品、客户端或中转站，看不到这些字段，也至少要建立一个最朴素的判断：

同一批资料、同一类追问，如果第二轮第三轮还跟第一轮一样贵，那大概率要么没命中，要么平台根本没把账单逻辑摊开给你看。

三、倍率到底是什么意思：1.25x、2x、0.1x 别再死背了

很多人第一次看到这些词就会头大：

1.25x
2x
0.1x
积分倍率
模型倍率

其实你先把它拆成两种就够了。

1. 官方倍率

这类倍率，多半是在讲缓存。

比如官方会写：

5 分钟缓存写入：基础输入价格的 1.25x
1 小时缓存写入：基础输入价格的 2x
缓存读取：基础输入价格的 0.1x

翻译成人话就是：

第一次让模型把这批资料记住，会比普通输入贵一点
如果希望它记得更久，第一次写进去会更贵一点
但后面只要命中缓存，再围绕同一批资料继续问，就会便宜很多

如果还是抽象，我们拿一笔假设账来算。

假设某模型基础输入价是 10 元 / 百万 token：

1.25x = 第一次写缓存，按 12.5 元
2x = 想让它记久一点，按 20 元
0.1x = 后面命中缓存，只按 1 元

所以缓存不是“白送记忆”，而是：

第一次多花一点，后面省一大截。

2. 平台倍率

另一种倍率，经常出现在第三方平台和中转站里。

比如：

10 元换多少积分
某模型倍率 3x
某会员解锁高阶模型

这类倍率很多时候不是模型本身的属性，而是平台把：

官方成本
路由费
并发成本
自己的利润

一起揉成了一个你不容易算清的数字。

所以它最大的坑不是“贵一点”，而是：

你根本不知道自己到底贵在模型，还是贵在平台包装。

四、中转站真的更便宜吗？

这个问题不能一刀切。
更真实的答案是：

有些中转站看起来便宜，但不一定真的便宜；有些官方单价看起来高，但总成本未必更高。

别只看充值页，要一起看这些：

上下文有没有被阉割
模型版本是不是偷偷降了
usage 能不能看见
高峰期稳不稳
会不会频繁重试和重开

很多时候，真正贵的不是那几分钱，而是：

反复重跑
路由不稳定
版本偷偷变了
你根本不知道自己是贵在模型本身，还是贵在缓存没命中

像 OpenRouter 这种统一入口，更适合理解成：

多模型路由层
统一接口层
对比 / 切换工具

而不是简单理解成“哪个更便宜的替身”。

五、普通人怎么省钱：Jeremy 那条发帖真正值得学什么？

前几天，Jeremy Nguyen 在 X 上有一条关于 Claude Code 缓存命中和 token 用量的发帖，在科技圈里传播很广。它真正值得普通人学的，不是某个命令本身，而是后面的判断方式：

很多时候，账单突然变贵，不是模型突然变贵了，而是缓存没命中，或者你的上下文组织方式把缓存打乱了。

比起照着某条命令原样抄，更值得学的是这几件事：

1. 把长期不变的资料固定下来

每次和 AI 说话时，前面尽量放长期固定不变的内容：

公司介绍
产品资料
写作风格
项目背景

后面再放这次新增的问题和变化。
这样前面那大块更容易被反复利用。

2. 知识库别每次重传

公司 FAQ、产品背景、长期规则、项目说明，尽量沉淀成一个长期维护的知识库或总文档。
每次新提问，只追加这次真的变化的部分，不要整包重发。

3. 先整理，再追问

面对几十页材料时，不要一上来就反复问细节。
更省钱的顺序通常是：

先让 AI 整理出摘要 / 提纲 / 编号笔记
后面大多数追问，都基于这份更短的整理版继续

4. 同一批资料，别动不动开新线程

如果你聊的是同一个项目、同一批采访记录、同一份合同，动不动新建对话，很容易把“翻书签”重新变回“读整本书”。

5. 觉得突然变贵时，先去看 usage 或 cost 页面

不要只盯余额。
先看缓存字段是不是掉成了 0，再判断是不是平台、线程习惯或上传方式出了问题。

一句话说透：

省钱不是少用，而是别让模型反复白读同样的东西。

六、为什么现在该认真看本地部署？

很多人以前对本地部署根本没兴趣。
一提到它，脑子里浮现的就是：

黑框命令行
装环境
折腾显卡
看起来像另一个专业世界

但 2026 年不一样的地方在于：

越来越多人已经跑通了自己的 AI 工作流，每个月都在稳定地消耗：

模型
上下文
缓存
账单

到了这个阶段，我们不得不承认：

本地部署已经不只是极客爱好，而是开始变成解决算力账单的一种现实选项。

特别是像 Unsloth Studio 这样的工具出现以后，本地模型开始被图形化、产品化。

你不需要懂很多复杂代码，点几下鼠标就能：

下载模型
运行模型
对比模型
做轻量训练或实验

这意味着，开源模型不再只是程序员的玩具，普通人也终于能碰得到了。

七、2026 本地模型怎么选？

这张表不是性能排行榜，而是普通人视角的“我这台机器大概先该试谁”。

模型	大概门槛	更适合什么	社区口碑
Qwen3-8B（通义千问 Qwen3-8B）	16GB 内存 / 8GB 显存	日常问答、中文写作、轻量代码辅助	中文强、均衡、很适合闭眼先试
Gemma 3 12B（Gemma 3 12B）	24GB+ 总可用内存更稳	多模态问答、本地助手	功能完整，但 12B 比想象中更吃资源
DeepSeek-R1-Distill-Qwen-14B（深度求索 R1 蒸馏版 Qwen 14B）	8GB 显存可试，24GB 更舒服	推理、数学、代码分析	性价比高，很有“会先想一想”的感觉
Qwen3-30B-A3B（通义千问 Qwen3-30B-A3B）	24GB 显存更理想	长文档分析、复杂代码诊断	很多玩家眼里的中大型“甜点位”
Llama 4 Scout（Llama 4 Scout）	64GB+ 统一内存 / 高端本地机	超长上下文、本地重型任务	生态强，但不是普通人的闭眼第一选择

如果你只是普通用户，最稳的顺序通常不是“先上最大模型”，而是：

先用 Qwen3-8B
再看自己是不是真的需要推理更强的 14B
再决定要不要上 30B 或更重的模型

结尾：到了 2026 年，会看账单也是基本功

我们以前总说，AI 时代最重要的是学会提问。
这句话当然没错。

但到了今天，只会写 Prompt，已经不够了。

你还得慢慢补上几项真正决定长期体验的能力：

会看 token（词元）账单
会看缓存命中
会分辨官方倍率和平台倍率
会判断中转站到底便宜在哪、坑在哪
也知道什么时候该继续用云端，什么时候该认真看本地部署

这不是技术宅的兴趣题，而是普通人用 AI 的生活常识。

这里是向AI弃权。
我们接下来会持续写这条线：不再只讨论哪个模型又变聪明了，而是把 真实工作流、真实成本、真实替代路线 讲明白。

因为对普通人来说，真正值钱的不是会背模型名字，而是知道：

什么时候该用平台
什么时候该盯 usage
什么时候该认真考虑把一部分能力收回到自己手里

可核实来源

Moonshot Kimi 官方文档与价格页
Anthropic Prompt Caching / Pricing 官方文档
OpenAI API Pricing 官方页
Google Gemini Pricing / Caching 官方文档
DeepSeek API Pricing 官方文档
Jeremy Nguyen 在 X 上关于 Claude Code 缓存和 token 的公开发帖
OpenRouter Pricing / FAQ 官方页
Unsloth Studio 官方说明页
Qwen / Gemma / DeepSeek / Llama 官方页面与社区口碑样本