很多人第一次认真用 OpenClaw,都会经历一个阶段:
- 聊几轮就提示用量过高
- 响应越来越慢
- API 账单一路起飞
最夸张的案例:
👉 两小时消耗 100 美元
👉 月账单 3000+ 美元
但也有人同样的使用场景,成本几乎为 0。
差距在哪?
答案不是“少用”,而是——优化方式不同。
这篇文章,我不讲空话,直接给你一套完整可落地的降本实战方案。从原理到配置,照着做即可。
一、为什么 OpenClaw 会这么费 Token?
先搞清楚问题根源。
Token 消耗公式:
Token 消耗 = (输入 + 输出) × 调用次数 × 模型单价
真正的大头其实是 —— 输入。
一次请求通常包含:
- System Prompt(3k-10k tokens)
- Tool Schema(5k-8k tokens)
- Workspace 文件(AGENTS.md / MEMORY.md 等)
- 历史对话
- 每日记忆文件
一次请求 2~3 万 tokens 很常见。
聊 10 轮?
就是 20~30 万 tokens。
如果长期运行,甚至会出现 5 万、10 万、20 万 token 的“上下文爆炸”。
结果就是:
- 响应慢
- 容易超时
- 成本指数级增长
二、核心思路:三刀流降本法
真正有效的优化逻辑只有三件事:
- 精准筛选(不要读全文)
- 智能缓存(重复不重复算钱)
- 动态加载(按需加载,不提前塞)
下面开始实战。
三、第一步(必做):启用 QMD 记忆后端
🔥 降本幅度:90%+
QMD 是 OpenClaw 2026 之后最重要的升级。
核心逻辑:
不再把整个 MEMORY.md 塞进上下文
只提取相关段落(通常 2-3 句)
实测效果
| 场景 | 优化前 | 优化后 |
|---|---|---|
| 记忆检索 | 15000 tokens | 1500 tokens |
| 长会话 | 80000 tokens | 削减 95%+ |
| 响应时间 | 20-40 秒 | 2-3 秒 |
安装步骤
# 安装 bun
npm i -g bun
# 安装 QMD
bun install -g github:tobi/qmd
配置 openclaw.json
{
"memory": {
"backend": "qmd",
"qmd": {
"limits": {
"timeoutMs": 8000
}
}
}
}
然后重启:
openclaw gateway restart
查看日志确认:
openclaw logs --follow
看到 Using QMD memory backend 就成功。
为什么它能省这么多?
QMD 用三层混合搜索:
- BM25 关键词匹配
- 向量语义搜索
- LLM 重排序
精准度 93%,但只传相关片段。
结果:
- 速度快 5~50 倍
- 成本降低 90~99%
- 长会话不再卡死
长期运行 Agent,不启用 QMD 基本不可持续。
四、第二步:启用 Prompt Caching(再省 70~90%)
很多人忽略这一点。
重复请求,其实没必要重复计费。
配置示例:
{
"models": {
"anthropic/claude-sonnet-4-5": {
"params": {
"cacheRetention": "long",
"maxTokens": 65536
}
}
}
}
再配合 Heartbeat 保持缓存:
{
"heartbeat": {
"every": "55m",
"target": "last",
"model": "minimax/MiniMax-M2.5"
}
}
原理:
- 首次 10000 tokens 正常计费
- 后续 100 tokens 新内容 + 10000 tokens 缓存
- 缓存部分价格便宜 10 倍
长期运行能省非常多。
五、第三步:清理记忆垃圾(memory-hygiene)
长期运行后,记忆文件会变成垃圾堆。
推荐安装:
openclaw skills install memory-hygiene
配置:
{
"skills": {
"memory-hygiene": {
"enabled": true,
"autoClean": true,
"cleanInterval": "24h",
"keepImportant": true
}
}
}
效果:
- 向量记忆减少 30-40%
- 检索速度提升
- 避免记忆污染
六、第四步:精简 Workspace 文件(立刻见效)
AGENTS.md / SOUL.md / TOOLS.md
都是隐藏的大户。
建议控制:
- AGENTS.md ≤ 800 tokens
- SOUL.md ≤ 500 tokens
- MEMORY.md ≤ 2000 tokens
可以直接对 AI 说:
帮我压缩 Workspace 文件,保留核心功能,删除冗余规则。
这一步通常立刻能降 2000~5000 tokens/次。
七、第五步:模型分级使用(别一直用 Opus)
高端模型很贵。
建议策略:
- 日常:Sonnet / MiniMax
- 复杂任务:Opus 手动切换
对话中切换:
/model sonnet
/model opus
日常任务用便宜模型,成本直接降 70%。
八、进阶:子 Agent 隔离上下文
当你需要并发执行多个任务时:
不要让主 Agent 背锅。
{
"subagents": {
"model": "minimax/MiniMax-M2.5",
"maxConcurrent": 12,
"archiveAfterMinutes": 60
}
}
优势:
- 子任务用便宜模型
- 独立上下文
- 主模型不爆炸
九、组合效果对比
| 组合 | 总节省 |
|---|---|
| 只装 QMD | 90% |
| QMD + Caching | 95% |
| 全部优化 | 97%+ |
企业场景能从几千美元压到几百甚至更低。
十、常见误区
❌ 误区 1:只怪模型太贵
→ 真正贵的是无意义输入
❌ 误区 2:少聊天就行
→ 长期运行 Agent 不现实
❌ 误区 3:压缩文本就够了
→ 必须配合搜索 + 缓存 + 动态加载
最终建议(按优先级)
必做:
- 启用 QMD
- 启用 Prompt Caching
- 精简 Workspace 文件
进阶:
- memory-hygiene
- 子 Agent
- 模型分级策略
结语
OpenClaw 不是费钱。
错误的使用方式才费钱。
当上下文被精准控制后:
- 速度更快
- 回答更准
- 成本降低 90%+
长期运行 Agent 的人,早晚都会做这一步。
不如现在就开始。