向AI弃权最近持续在跟一条线:
很多人已经不再停留在“AI 好不好玩”“提示词怎么写更神”这个阶段了,而是开始进入真正的工作流阶段。
一旦进入工作流阶段,问题就会立刻变得很现实:
- 为什么同样是用 AI,有的人花得很稳,有的人一聊就肉疼?
- 为什么同样是一个模型,换个平台,价格感受差这么多?
- 为什么有人开始研究缓存命中、usage、provider、local model,而不是只盯着模型排行榜?
这篇文章想系统讲清楚 6 件事:
token(词元)到底是什么- 为什么你上传文件、长提示词、历史对话都会一起计费
缓存命中为什么会直接影响账单- 官方文档里的
1.25x / 2x / 0.1x到底是什么意思 - 中转站到底是不是真的便宜
- 为什么到了 2026 年,认真使用 AI 的人开始重新看本地部署
一、Token(词元)到底是什么:你到底在为什么付钱?
很多人不是不知道 AI 按量计费。
大家真正糊涂的地方是:
- 知道“每百万 token 多少钱”
- 但不知道中文 token 大概怎么换算
- 更不知道自己上传文件、截图 OCR、长提示词、历史对话、系统上下文,这些东西都有可能一起算进去
token 的官方中文常见译法叫 词元。
先别急着背术语,先记一个更有用的白话:
token 就是模型内部拿来计费的最小颗粒。
它不是“一个字”,也不是“一个词”,而是模型把你输入和输出切碎以后,用来计数的那种小块。
如果只是想建立一个够用的成本直觉,可以先这么估:
- 中文里,先粗暴按
1 个汉字≈1 个 token - 英文里,短词常常就是 1 个 token,长词会被拆开;很多时候大概
4 到 5 个英文字符≈1 个 token
所以:
1M token对中文来说,大概是70 万到 100 万汉字- 对英文来说,大概是
50 万到 75 万单词
这不是 tokenizer 级别的精确换算,但对估账已经很够用了。
因为普通人最缺的,不是更精确的切分器,而是先知道“这东西到底有多大”。
很多人为什么会算成糊涂账?
因为你以为自己只问了一句话,模型实际上看到的是一整包上下文。
比如你表面上只发了一句:
帮我从这份合同里挑 3 个最危险的点。
但模型真正收到的,可能包括:
- 20 页合同全文
- 上一轮让它做的分类标准
- 这一轮的新问题
- 平台默认挂上的系统指令
最后计费的,不是这十几个字,而是这一整包东西。
这也是为什么很多人账单贵,不是因为“问得太多”,而是因为:
- 每次都让模型重读同一批资料
- 长提示词写得越来越长
- 历史对话带得越来越多
- 输出也越来越长
还要再补一个常识:
很多模型“说话”比“听话”贵得多。
也就是说,让模型读懂一批材料,和让模型生成一大段长回答,很多时候不是同一个价格级别。
如果你只记一句话,我希望是这句:
AI 不是只按“结果”收费,它是在按“你喂进去多少、它吐出来多少、有没有重复读同样的东西”收费。
二、缓存命中是什么:为什么第二轮通常应该更便宜?
缓存命中,是 2026 年普通人最该补的一点 AI 账单常识。
你可以把它想成这样:
- 第一次,你把一份很长的资料扔给 AI,它要老老实实读一遍
- 第二次,你还是围绕这份资料继续追问,理论上它就不该再从头重读一遍
如果平台或 API 支持缓存,模型就会把前面那批上下文“记一小会儿”。
后面你继续追问时,它不是重新通读,而是直接利用前面已经处理过的内容。
这就叫 缓存命中。
说白了就是:
- 第一次像“通读整本书”
- 后面应该更像“翻书签”
如果第二轮第三轮还跟第一轮一样贵,那你就该警惕了。
几家主流模型的缓存价格差,一眼看懂
美元统一按 1 美元≈7 元人民币 粗算,只追求价格感,不追求财务审计精度。
| 模型 | 母公司 | 普通输入价 | 缓存命中价 | 粗算人民币感受 |
|---|---|---|---|---|
| Claude Sonnet 4.6(克劳德 Sonnet 4.6) | Anthropic | $3.00 / 百万 token | $0.30 / 百万 token | 约 ¥21 变 ¥2.1 |
| GPT-5.4(GPT-5.4) | OpenAI | $2.50 / 百万 token | $0.25 / 百万 token | 约 ¥17.5 变 ¥1.75 |
| Gemini 2.5 Pro(Gemini 2.5 Pro) | $1.25 / 百万 token | $0.125 / 百万 token | 约 ¥8.75 变 ¥0.88 | |
| DeepSeek-V3.2(深度求索 V3.2) | DeepSeek | $0.28 / 百万 token | $0.028 / 百万 token | 约 ¥1.96 变 ¥0.20 |
| Kimi K2.5(Kimi K2.5) | Moonshot AI | ¥4.00 / 百万 token | ¥0.70 / 百万 token | ¥4 变 ¥0.7 |
这张表最重要的不是背数字,而是形成一个直觉:
同样是输入 token,命中缓存以后,价格往往只剩原来的一小部分。
一般在哪里看缓存命中?
最有用的不是“背价格页”,而是知道去哪里看返回字段。
常见平台大概是这样:
-
Anthropic / Claude API
看usage里的
cache_creation_input_tokens、cache_read_input_tokens -
OpenAI API
看usage.prompt_tokens_details.cached_tokens -
Google Gemini API
看usage_metadata -
DeepSeek API
看prompt_cache_hit_tokens和prompt_cache_miss_tokens
如果你现在用的是前台产品、客户端或中转站,看不到这些字段,也至少要建立一个最朴素的判断:
同一批资料、同一类追问,如果第二轮第三轮还跟第一轮一样贵,那大概率要么没命中,要么平台根本没把账单逻辑摊开给你看。
三、倍率到底是什么意思:1.25x、2x、0.1x 别再死背了
很多人第一次看到这些词就会头大:
1.25x2x0.1x- 积分倍率
- 模型倍率
其实你先把它拆成两种就够了。
1. 官方倍率
这类倍率,多半是在讲缓存。
比如官方会写:
- 5 分钟缓存写入:基础输入价格的
1.25x - 1 小时缓存写入:基础输入价格的
2x - 缓存读取:基础输入价格的
0.1x
翻译成人话就是:
- 第一次让模型把这批资料记住,会比普通输入贵一点
- 如果希望它记得更久,第一次写进去会更贵一点
- 但后面只要命中缓存,再围绕同一批资料继续问,就会便宜很多
如果还是抽象,我们拿一笔假设账来算。
假设某模型基础输入价是 10 元 / 百万 token:
1.25x= 第一次写缓存,按12.5 元2x= 想让它记久一点,按20 元0.1x= 后面命中缓存,只按1 元
所以缓存不是“白送记忆”,而是:
第一次多花一点,后面省一大截。
2. 平台倍率
另一种倍率,经常出现在第三方平台和中转站里。
比如:
- 10 元换多少积分
- 某模型倍率
3x - 某会员解锁高阶模型
这类倍率很多时候不是模型本身的属性,而是平台把:
- 官方成本
- 路由费
- 并发成本
- 自己的利润
一起揉成了一个你不容易算清的数字。
所以它最大的坑不是“贵一点”,而是:
你根本不知道自己到底贵在模型,还是贵在平台包装。
四、中转站真的更便宜吗?
这个问题不能一刀切。
更真实的答案是:
有些中转站看起来便宜,但不一定真的便宜;有些官方单价看起来高,但总成本未必更高。
别只看充值页,要一起看这些:
- 上下文有没有被阉割
- 模型版本是不是偷偷降了
- usage 能不能看见
- 高峰期稳不稳
- 会不会频繁重试和重开
很多时候,真正贵的不是那几分钱,而是:
- 反复重跑
- 路由不稳定
- 版本偷偷变了
- 你根本不知道自己是贵在模型本身,还是贵在缓存没命中
像 OpenRouter 这种统一入口,更适合理解成:
- 多模型路由层
- 统一接口层
- 对比 / 切换工具
而不是简单理解成“哪个更便宜的替身”。
五、普通人怎么省钱:Jeremy 那条发帖真正值得学什么?
前几天,Jeremy Nguyen 在 X 上有一条关于 Claude Code 缓存命中和 token 用量的发帖,在科技圈里传播很广。
它真正值得普通人学的,不是某个命令本身,而是后面的判断方式:
很多时候,账单突然变贵,不是模型突然变贵了,而是缓存没命中,或者你的上下文组织方式把缓存打乱了。
比起照着某条命令原样抄,更值得学的是这几件事:
1. 把长期不变的资料固定下来
每次和 AI 说话时,前面尽量放长期固定不变的内容:
- 公司介绍
- 产品资料
- 写作风格
- 项目背景
后面再放这次新增的问题和变化。
这样前面那大块更容易被反复利用。
2. 知识库别每次重传
公司 FAQ、产品背景、长期规则、项目说明,尽量沉淀成一个长期维护的知识库或总文档。
每次新提问,只追加这次真的变化的部分,不要整包重发。
3. 先整理,再追问
面对几十页材料时,不要一上来就反复问细节。
更省钱的顺序通常是:
- 先让 AI 整理出摘要 / 提纲 / 编号笔记
- 后面大多数追问,都基于这份更短的整理版继续
4. 同一批资料,别动不动开新线程
如果你聊的是同一个项目、同一批采访记录、同一份合同,动不动新建对话,很容易把“翻书签”重新变回“读整本书”。
5. 觉得突然变贵时,先去看 usage 或 cost 页面
不要只盯余额。
先看缓存字段是不是掉成了 0,再判断是不是平台、线程习惯或上传方式出了问题。
一句话说透:
省钱不是少用,而是别让模型反复白读同样的东西。
六、为什么现在该认真看本地部署?
很多人以前对本地部署根本没兴趣。
一提到它,脑子里浮现的就是:
- 黑框命令行
- 装环境
- 折腾显卡
- 看起来像另一个专业世界
但 2026 年不一样的地方在于:
越来越多人已经跑通了自己的 AI 工作流,每个月都在稳定地消耗:
- 模型
- 上下文
- 缓存
- 账单
到了这个阶段,我们不得不承认:
本地部署已经不只是极客爱好,而是开始变成解决算力账单的一种现实选项。
特别是像 Unsloth Studio 这样的工具出现以后,本地模型开始被图形化、产品化。
你不需要懂很多复杂代码,点几下鼠标就能:
- 下载模型
- 运行模型
- 对比模型
- 做轻量训练或实验
这意味着,开源模型不再只是程序员的玩具,普通人也终于能碰得到了。
七、2026 本地模型怎么选?
这张表不是性能排行榜,而是普通人视角的“我这台机器大概先该试谁”。
| 模型 | 大概门槛 | 更适合什么 | 社区口碑 |
|---|---|---|---|
| Qwen3-8B(通义千问 Qwen3-8B) | 16GB 内存 / 8GB 显存 | 日常问答、中文写作、轻量代码辅助 | 中文强、均衡、很适合闭眼先试 |
| Gemma 3 12B(Gemma 3 12B) | 24GB+ 总可用内存更稳 | 多模态问答、本地助手 | 功能完整,但 12B 比想象中更吃资源 |
| DeepSeek-R1-Distill-Qwen-14B(深度求索 R1 蒸馏版 Qwen 14B) | 8GB 显存可试,24GB 更舒服 | 推理、数学、代码分析 | 性价比高,很有“会先想一想”的感觉 |
| Qwen3-30B-A3B(通义千问 Qwen3-30B-A3B) | 24GB 显存更理想 | 长文档分析、复杂代码诊断 | 很多玩家眼里的中大型“甜点位” |
| Llama 4 Scout(Llama 4 Scout) | 64GB+ 统一内存 / 高端本地机 | 超长上下文、本地重型任务 | 生态强,但不是普通人的闭眼第一选择 |
如果你只是普通用户,最稳的顺序通常不是“先上最大模型”,而是:
- 先用
Qwen3-8B - 再看自己是不是真的需要推理更强的 14B
- 再决定要不要上 30B 或更重的模型
结尾:到了 2026 年,会看账单也是基本功
我们以前总说,AI 时代最重要的是学会提问。
这句话当然没错。
但到了今天,只会写 Prompt,已经不够了。
你还得慢慢补上几项真正决定长期体验的能力:
- 会看 token(词元)账单
- 会看缓存命中
- 会分辨官方倍率和平台倍率
- 会判断中转站到底便宜在哪、坑在哪
- 也知道什么时候该继续用云端,什么时候该认真看本地部署
这不是技术宅的兴趣题,而是普通人用 AI 的生活常识。
这里是向AI弃权。
我们接下来会持续写这条线:不再只讨论哪个模型又变聪明了,而是把 真实工作流、真实成本、真实替代路线 讲明白。
因为对普通人来说,真正值钱的不是会背模型名字,而是知道:
- 什么时候该用平台
- 什么时候该盯 usage
- 什么时候该认真考虑把一部分能力收回到自己手里
可核实来源
- Moonshot Kimi 官方文档与价格页
- Anthropic Prompt Caching / Pricing 官方文档
- OpenAI API Pricing 官方页
- Google Gemini Pricing / Caching 官方文档
- DeepSeek API Pricing 官方文档
- Jeremy Nguyen 在 X 上关于 Claude Code 缓存和 token 的公开发帖
- OpenRouter Pricing / FAQ 官方页
- Unsloth Studio 官方说明页
- Qwen / Gemma / DeepSeek / Llama 官方页面与社区口碑样本