一、简介
常见 AI 计费模式
| 模式 | 示例 | 本质 |
|---|---|---|
| 按 token | OpenAI API | 纯 token 计费 |
| 按月订阅 | Cursor $20/月 | 内含 token 上限,超了限流 |
| 按功能 | 部分工具 | 背后还是 token |
| 看似免费 | ChatGPT Plus | 实际有 token 限流 |
你买的从来不是"功能",你买的是一桶 token
为什么用 Token 计费?
因为大模型真正的成本单位是处理的文本量,不是请求次数。
用户A:问"你好" → 5 token
用户B:问"帮我分析 3000 行代码" → 50000 token
如果按"次数"卖,平台直接亏死。所以只能按 token。
一、Token 是什么
Token = 模型读写的最小文字颗粒(不是字,不是词,是切碎后的语言单元)
| 文本示例 | 约 Token 数 |
|---|---|
| 你好 | 2 |
| hello | 1 |
| 1000字中文 | 1500~2000 |
⚠️ 中文比英文费 1.5~2 倍 token
二、Token 怎么计费
成本 = (输入token + 输出token) × 模型单价
= 你给它看的字数 + 它给你写的字数
💡 谁话少,谁便宜。谁精准,谁省钱。
关键认知:每次对话,模型都会把历史记录全部重读一遍
| 对话轮次 | 累计消耗 |
|---|---|
| 第1轮 | 100 token |
| 第5轮 | 800 token |
| 第10轮 | 3000+ token |
对话越长,成本指数级上升
三、最费 Token 的行为
| 行为 | 原因 |
|---|---|
| 长对话不清空 | 历史累积爆炸 |
| 贴大段代码 | 符号换行都算token |
| 贴 JSON/日志 | 极度碎片化 |
| 让 AI 读整个项目 | Cursor 烧钱元凶 |
| 写一堆废话描述 | 字多就是钱多 |
四、省 Token 技巧(核心)
| 技巧 | 说明 |
|---|---|
| 断对话 | 聊 5 轮后开新会话,带结论继续 |
| 贴关键点 | 不贴 800 行,只贴报错+相关 20 行 |
| 贴结构不贴 JSON | { code, msg, data: { list } } |
| 用英文问技术问题 | 同一句话省 50%+ |
| 限制输出 | 加"简洁回答,只给结论" |
| 禁止读全项目 | 加"只根据我给的代码回答" |
同样的钱,怎么干更多事?
核心思路:省下的 token = 能多问的问题
| 策略 | 效果 |
|---|---|
| 用英文问技术问题 | 同样内容省 50% token |
| 贴关键代码而非全部 | 省 90%+ token |
| 及时断对话 | 避免历史累积 |
| 限制输出长度 | 输出也算钱 |
| 免费 AI 先探索 | 付费只执行 |
🎯 省 token = 同样的钱能干更多事 = 响应更快
五、省 Token 模板(直接用)
简洁回答,只给结论。
不要重复问题。
如需代码,只给最小示例。
六、口诀
少贴代码 | 少聊历史 | 少说废话 | 多开新会话 | 多用英文 | 限制输出
七、补充常识
1. 上下文窗口(Context Window)
模型是有"记住"最大 token 数限制的,超出会被截断或报错。
⚠️ 窗口大 ≠ 随便用,用多少付多少!
2. 免费 AI 先行策略(强烈推荐)
思路:用免费 AI 思考探索,付费工具只负责执行
复杂问题 → 免费AI探索 → 得出结论/方案 → 付费工具直接执行
实战示例:
❌ 直接在 Cursor 问:"这个架构怎么设计?"(烧钱探索)
✅ 先在免费 AI 讨论清楚 → 拿结论让 Cursor 执行(省钱)
💡 免费 AI 负责"想",付费工具负责"干"
八、终极省钱组合拳
1. 免费 AI 想清楚问题和方案
2. 精简成最短指令
3. 用英文描述技术问题
4. 付费工具一次性执行
5. 及时断对话,不累积历史
🎯 探索用免费,执行用付费,全程要精简