你以为 AI 在按“字数”收费?不,它在按「注意力」收费!

107 阅读4分钟

用过openrouter的api服务的应该看过不同模型的收费方式吧~

image.png

为什么输出的token价格比输入的token价格贵那么多?还有,明明是同样一句话,中文确普遍比英文贵?还有每次跟ai“促膝长谈”,ai就开始装傻?忘掉前面说的?一开始我也以为是模型不行了,其实不是的,这期就来深度聊聊token。

首先大家要记住的是,token 不是字数,不是字数,不是字数!它是 AI 为了持续理解你,所要付出的👉注意力成本单位👈。只要你抓住这一点,后面所有“贵、慢、变笨”的现象,都会对上。

AI 并不是读一句 → 回一句, 这是 90% 误解的起点。对人来说:

对 我输入一句话 → 它看完 → 回一句,但对 AI 来说,真实过程是:

每生成一个 token,它都会重新“看一遍”当前能看到的全部上下文,再决定:下一个 token 最可能是什么。(小技巧:所以如果你要用ai来生成超长的文案,可以在工作流中借助循环,把每次生成的长文放回去,让ai阅读理解之后继续续写,就可以打破ai的输出限制)

而且要注意的是ai不是“看一遍就完事”,而是“每一步都要重看一遍”。这就是 token 会不断累积成本的根本原因。

那 token 到底是什么?

你可以把 token 理解成:AI 在同一时刻,能被放进注意力范围里的最小信息颗粒。

它可能是:一个英文单词、一个中文汉字、一段符号或者是半个词、甚至词的一部分。所以以后别人问什么事token,可别说是字数了,token ≠ 字数,而是“需要被同时关注的信息量”。

这也解释了为什么中文通常比英文 token 多、专业术语、混合符号特别“贵”,有时候看起来很短的输入,居然能把你的额度干完。

为什么 token 一多,就又贵又慢又“笨”?

分开解释一下。

1️⃣ 为什么更贵?

因为每多一个 token,后续生成的每一步,都要把它重新纳入计算。这可不是一次性成本,而是被反复支付的成本。

2️⃣ 为什么更慢?

上下文越长,模型在预测下一个 token 时,需要权衡的可能性就越多。所以你感觉到的“卡顿”,不是 AI 犹豫,而是计算量真的变大了。

3️⃣ 为什么看起来更笨?

当上下文非常长时,模型并不是“所有信息都记得一样清楚”,而是在注意力里不断做取舍。这样做的结果就是早期指令被稀释,关键约束被忽略,回答开始跑偏、重复、敷衍。它不是忘了,而是顾不过来了。

为什么输出 token 比输入更贵?

回到最开始提到的问题,为什么输出比输入贵?这是因为两者的工作方式完全不同。

输入的时候也内容是被整体“看一遍”,而到了输出,就变成了每生成一个 token,都要重新查看全部上下文,再做一次判断。

输入只消耗一次注意力,输出是在持续消耗注意力。所以输出更贵,是必然的。

那为什么大家都在拼「超长上下文」?

这一点点破了,读者会立刻懂很多行业现象。

所谓上下文长度竞赛,本质不是谁更聪明,而是谁能更便宜地处理更多 token。

这背后拼的是:模型结构、Infra** 能力、缓存命中、记忆压缩与分段(如果对这些词语感兴趣,后续可以单独出一期科普下),也正因为 token 的压力,所以Agent 要拆任务、Workflow** 要分步骤、长对话迟早要重开……

这里也给所有的ai使用者三条实用建议:

1️⃣不要“一次把话说完”,尽量拆成几轮对话,这样通常更便宜、更稳定。

2️⃣把重要指令放前面,不要觉得有时候会“冒犯”到ai,这能够显著提高ai在重要指令上的注意力。

3️⃣如果当 AI 开始跑偏,直接重开,很多时候,这是性价比最高的解决方案。