最近沉迷于养虾,有几天没发文章了,今天来讲讲最近的养虾心得,首先必须要讲的是省钱方面。
打开社交平台,满屏都是「Token焦虑」和「龙虾受害者」的哀嚎。有人6小时消耗9000万Token,账单170美元;有人实测复杂程序调试,一天烧掉10亿Token,花费近万元;有人养不起了,放弃养虾,找人花299上门卸载。
「开源免费」的标签贴在OpenClaw身上,但当你真正把它跑起来,会发现免费的只是门票,养AI的成本才是真正的门槛。
今天带来的是一份真金白银换来的省钱实战方案。
核心逻辑一句话:理解Token去向,让对的模型干对的事。
一、Token去哪了:被忽视的「呼吸成本」
1.1 冰山下的真实消耗
大多数用户的认知里,OpenClaw的Token消耗 = 「我输入的字数 + AI输出的字数」。这个理解连冰山一角都不到。
一个实测数据非常说明问题,网上有人公布了一天的完整工作负载拆解如下:
| 类别 | Token数 | 占比 |
|---|---|---|
| 缓存读取(cacheRead) | 17,105,970 | 79.40% |
| 输入(input) | 4,345,264 | 20.17% |
| 输出(output) | 92,480 | 0.43% |
近八成费用花在了「重复读取历史上下文」上。 这才是真正的成本杀手。
1.2 隐形成本的三驾马车
第一驾:ReAct循环的「记忆税」
OpenClaw的工作模式是循环往复的ReAct循环:思考→执行→检查→再思考。每一次循环,上下文都会被重新读取。
当你让它查天气,返回的JSON写进去了;让它操作浏览器,截图描述写进去了;让它执行代码,运行日志也写进去了。这些中间产物在下一轮ReAct循环中会被再次读取。20轮对话后,每条新消息携带的「历史包袱」已经非常沉重。
第二驾:你以为没在用它,其实它在「呼吸」
- Heartbeat(心跳) :每隔一段时间自动醒来检查环境,决定行动。即使没你的指令,也在烧Token。
- 定时任务(Cron) :每15分钟检查一次飞书消息,一天96次调用。每次都相当于全新对话,需要重新注入全部上下文。
有个测试出来的数据:一个15分钟间隔的Cron任务,在Opus模型下一天就能烧掉10-20美元。
第三驾:系统提示本身就是个大户
一个配了9个工具的OpenClaw实例,光系统提示(AGENTS.md、SOUL.md等)就可能消耗十几万Token。这还是在你什么都没干的情况下。
二、模型分层:省钱第一大招
2.1 为什么分层是最有效的方案
在所有优化手段中,模型分层的效果最猛、落地最简单。这里以Claude Opus和Claude Sonnet为例:
核心原理很简单:把Claude Opus当「专家」,把Claude Sonnet当「普通员工」。
看价格对比——
| 模型 | 输入(每百万Token) | 输出(每百万Token) |
|---|---|---|
| Claude Sonnet 4.6 | $3 | $15 |
| Claude Opus 4.6 | $15 | $75 |
Sonnet价格只有Opus的五分之一。
更关键的是:根据Anthropic官方数据,Sonnet 4.6在OSWorld基准上得分72.5% ,与Opus 4.6的72.7%几乎持平。在编程任务的用户偏好测试中, 70%的用户更爱Sonnet生成的代码。
这意味着:绝大多数日常任务,Sonnet完全够用。
2.2 分层配置实战
具体配置方案(实测可省65%以上成本):
- 默认模型:Sonnet 4.6
- Cron/Heartbeat任务:Sonnet 4.6
- 只有这些场景才切换Opus:
-
- 复杂代码生成
- 多步推理任务
- 长文写作
- 架构设计
操作方法:
直接在OpenClaw对话中输入:
请把我的OpenClaw默认模型改为Claude Sonnet,只在需要深度分析或创作时使用Opus。
2.3 成本对比实测
| 场景 | Opus月成本 | Sonnet月成本 | 节省 |
|---|---|---|---|
| 日常使用(100次/天) | ~$450 | ~$90 | 80% |
| 含Cron任务 | ~$750 | ~$150 | 80% |
| 重度使用 | ~$2000 | ~$400 | 80% |
三、上下文瘦身:砍掉隐形Token大户
3.1 每次调用的「底噪」
每次调用的「底噪」可能高达3000-14000个Token。这不是你说话的内容,而是系统注入的配置文件。
这些文件包括:
- AGENTS.md:代理配置、工具列表、群聊规则
- SOUL.md:人格设定、行为规范
- MEMORY.md:长期记忆、用户偏好
- WORKSPACE:项目上下文、工作文件
3.2 精简实操方案
优化方法(直接给Prompt):
请帮我精简OpenClaw的上下文文件以节约Token:
1. AGENTS.md - 删掉不需要的部分(群聊规则、TTS、不用的功能),压缩到800 Token以内
2. SOUL.md - 精简为简洁要点,300-500 Token
3. MEMORY.md - 清理过期内容
OpenClaw内置的斜杠命令也很好用:
/compact- 压缩当前会话/reset- 重置会话/new- 开启新会话
3.3 进阶配置:contextPruning
在OpenClaw配置文件(.openclaw目录)中添加:
"contextPruning": {
"enabled": true,
"maxToolResultLength": 2000
}
这会自动修剪过长的工具输出,保留关键信息的同时控制Token消耗。
四、 2026 省钱全攻略:从“薅羊毛”到“终极自由”
如果你觉得 OpenClaw 的 Token 消耗让你肉疼,那说明你还没玩明白 2026 年的 AI 市场。现在的 AI 圈已经卷到了“百亿补贴”的程度,只要你稍微花点心思,完全可以把成本压到极低,甚至实现“Token 自由”。
4.1 Coding Plan:开发者的“包月自助餐”
2026 年初,国内各大厂商纷纷推出了针对开发者的 Coding Plan。这玩意儿本质上就是“包月套餐”,非常适合 OpenClaw 这种高频调用的场景,以下列一下部分Coding Plan的档位和价格,评论区可以补充。
| 平台 | 套餐档位 | 价格(首月/续费) | 核心额度与特点 |
|---|---|---|---|
| 阿里云百炼 | Lite / Pro | ¥7.9 / ¥39.9 起 | 整合 Qwen、GLM、Kimi、MiniMax 等顶级模型,Pro 档支持高强度 Agent 任务。 |
| 火山方舟 | Lite / Pro | ¥7.9 / ¥40 起 | 字节跳动出品,模型响应极快,Pro 档额度是 Lite 的 5 倍,适合多 Agent 协作。 |
| 硅基流动 | 开发者订阅 | ¥14 起 | 以“快”著称,新用户注册即送 大量Token,订阅后可解锁更多高并发权限。 |
| Cursor / Copilot | Pro 订阅 | 20美刀 / 10美刀 | 国外老牌方案。Cursor 深度集成 Agent 能力,Copilot 胜在稳定,但对国内网络有要求。 |
避坑指南: 刚开始玩,建议先少花点钱,看看模型跟你的 OpenClaw 配合够不够默契,额度够不够用,再决定要不要升级 Pro。
4.2 国内外低价 API 盘点:哪里便宜点哪里
除了包月套餐,按量付费的 API 也有很多“羊毛”可薅。这里有很多渠道可以白嫖,也有一些中转站提供折扣价格,有兴趣的话给文章点个赞,我后面单开一期。
3.3 终极方案:本地部署,彻底告别账单
如果你有一台配置不错的电脑(比如 Mac M2/M3 32G 内存,或者带 NVIDIA 显卡的 PC),那最硬核最省钱的玩法一定是本地部署。
玩法攻略:
- 安装大模型运行工具比如Ollama、VLLM、LM Studio,要注意有的大模型工具会默认限制上下文长度,需要在环境变量中修改。
- 下载量化模型:在本地跑一个 Llama 3.1-8B 或者 Qwen 2.5-7B 的量化版。
- 配置 OpenClaw:将 OpenClaw 的
heartbeat(心跳)和reflex(简单反射)任务指向本地模型的接口。
为什么这么玩? 因为心跳和简单巡检是 24 小时持续进行的,虽然单次消耗小,但累积起来很惊人。把这些“脏活累活”交给本地模型,你的 API 账单会瞬间清净。只有当 Agent 遇到搞不定的难题时,再通过配置自动切换到云端的 Claude 或 GPT。
这种 “本地心跳 + 云端大脑” 的混合模式,是我认为的 OpenClaw 终极省钱方案。既保证了 Agent 的智商,又把成本压到了几乎为零。
五、进阶优化:这些细节能再省20%
5.1 提示词缓存
主流云服务商提供提示词缓存功能。首次请求后,重复内容被缓存,后续读取成本极低。
配置方法: 用心跳机制(如每55分钟发一次轻量请求)保持缓存温暖,避免重新缓存的高成本。
效果: 可节约高达输入Token成本。
5.2 技能按需加载
OpenClaw的技能(Skills)不需要全部加载。只在需要时加载相关技能,然后也不要安装过多skills,这样可以显著减少系统提示的Token消耗。
5.3 监控与限额
- 安装model-usage技能实时查看Token消耗
- 在模型控制台设置每月消费上限(如50美元)
- 达到额度自动停止,避免账单失控
六、总结:成本优化的核心原则
| 优化手段 | 节省比例 | 难度 |
|---|---|---|
| 模型分层 | 65-80% | ⭐ |
| 上下文精简 | 15-25% | ⭐⭐ |
| 免费Token额度 | 100% | ⭐⭐ |
| 本地部署模型 | 100% | ⭐⭐ |
| 提示词缓存 | 90% | ⭐⭐⭐ |
| 技能按需加载 | 10-15% | ⭐⭐⭐ |
最终建议:
- 立刻做:把默认模型换成便宜一点的模型
- 每天做:用
/compact压缩会话 - 每周做:检查MEMORY.md,清理过期内容
- 薅羊毛:把免费的token额度薅个遍,就是要点时间
- 进阶:配置国产便宜的模型做日常任务,贵的模型留给真正复杂的场景
OpenClaw本身免费,但让它「干活」的成本才是真正的门槛。
你把它当基础设施,它就是印钞机;你把它当玩具,它就是碎钞机。