OpenClaw 太费 Token 的终极解决方案(可省 90%+)

0 阅读4分钟

很多人第一次认真用 OpenClaw,都会经历一个阶段:

  • 聊几轮就提示用量过高
  • 响应越来越慢
  • API 账单一路起飞

最夸张的案例:
👉 两小时消耗 100 美元
👉 月账单 3000+ 美元

但也有人同样的使用场景,成本几乎为 0。

差距在哪?

答案不是“少用”,而是——优化方式不同

这篇文章,我不讲空话,直接给你一套完整可落地的降本实战方案。从原理到配置,照着做即可。


一、为什么 OpenClaw 会这么费 Token?

先搞清楚问题根源。

Token 消耗公式:

Token 消耗 = (输入 + 输出) × 调用次数 × 模型单价

真正的大头其实是 —— 输入。

一次请求通常包含:

  • System Prompt(3k-10k tokens)
  • Tool Schema(5k-8k tokens)
  • Workspace 文件(AGENTS.md / MEMORY.md 等)
  • 历史对话
  • 每日记忆文件

一次请求 2~3 万 tokens 很常见。

聊 10 轮?
就是 20~30 万 tokens。

如果长期运行,甚至会出现 5 万、10 万、20 万 token 的“上下文爆炸”。

结果就是:

  • 响应慢
  • 容易超时
  • 成本指数级增长

二、核心思路:三刀流降本法

真正有效的优化逻辑只有三件事:

  1. 精准筛选(不要读全文)
  2. 智能缓存(重复不重复算钱)
  3. 动态加载(按需加载,不提前塞)

下面开始实战。


三、第一步(必做):启用 QMD 记忆后端

🔥 降本幅度:90%+

Image

Image

QMD 是 OpenClaw 2026 之后最重要的升级。

核心逻辑:

不再把整个 MEMORY.md 塞进上下文
只提取相关段落(通常 2-3 句)

实测效果

场景优化前优化后
记忆检索15000 tokens1500 tokens
长会话80000 tokens削减 95%+
响应时间20-40 秒2-3 秒

安装步骤

# 安装 bun
npm i -g bun

# 安装 QMD
bun install -g github:tobi/qmd

配置 openclaw.json

{
  "memory": {
    "backend": "qmd",
    "qmd": {
      "limits": {
        "timeoutMs": 8000
      }
    }
  }
}

然后重启:

openclaw gateway restart

查看日志确认:

openclaw logs --follow

看到 Using QMD memory backend 就成功。


为什么它能省这么多?

QMD 用三层混合搜索:

  1. BM25 关键词匹配
  2. 向量语义搜索
  3. LLM 重排序

精准度 93%,但只传相关片段。

结果:

  • 速度快 5~50 倍
  • 成本降低 90~99%
  • 长会话不再卡死

长期运行 Agent,不启用 QMD 基本不可持续。


四、第二步:启用 Prompt Caching(再省 70~90%)

很多人忽略这一点。

重复请求,其实没必要重复计费。

配置示例:

{
  "models": {
    "anthropic/claude-sonnet-4-5": {
      "params": {
        "cacheRetention": "long",
        "maxTokens": 65536
      }
    }
  }
}

再配合 Heartbeat 保持缓存:

{
  "heartbeat": {
    "every": "55m",
    "target": "last",
    "model": "minimax/MiniMax-M2.5"
  }
}

原理:

  • 首次 10000 tokens 正常计费
  • 后续 100 tokens 新内容 + 10000 tokens 缓存
  • 缓存部分价格便宜 10 倍

长期运行能省非常多。


五、第三步:清理记忆垃圾(memory-hygiene)

长期运行后,记忆文件会变成垃圾堆。

推荐安装:

openclaw skills install memory-hygiene

配置:

{
  "skills": {
    "memory-hygiene": {
      "enabled": true,
      "autoClean": true,
      "cleanInterval": "24h",
      "keepImportant": true
    }
  }
}

效果:

  • 向量记忆减少 30-40%
  • 检索速度提升
  • 避免记忆污染

六、第四步:精简 Workspace 文件(立刻见效)

AGENTS.md / SOUL.md / TOOLS.md
都是隐藏的大户。

建议控制:

  • AGENTS.md ≤ 800 tokens
  • SOUL.md ≤ 500 tokens
  • MEMORY.md ≤ 2000 tokens

可以直接对 AI 说:

帮我压缩 Workspace 文件,保留核心功能,删除冗余规则。

这一步通常立刻能降 2000~5000 tokens/次。


七、第五步:模型分级使用(别一直用 Opus)

高端模型很贵。

建议策略:

  • 日常:Sonnet / MiniMax
  • 复杂任务:Opus 手动切换

对话中切换:

/model sonnet
/model opus

日常任务用便宜模型,成本直接降 70%。


八、进阶:子 Agent 隔离上下文

当你需要并发执行多个任务时:

不要让主 Agent 背锅。

{
  "subagents": {
    "model": "minimax/MiniMax-M2.5",
    "maxConcurrent": 12,
    "archiveAfterMinutes": 60
  }
}

优势:

  • 子任务用便宜模型
  • 独立上下文
  • 主模型不爆炸

九、组合效果对比

组合总节省
只装 QMD90%
QMD + Caching95%
全部优化97%+

企业场景能从几千美元压到几百甚至更低。


十、常见误区

❌ 误区 1:只怪模型太贵
→ 真正贵的是无意义输入

❌ 误区 2:少聊天就行
→ 长期运行 Agent 不现实

❌ 误区 3:压缩文本就够了
→ 必须配合搜索 + 缓存 + 动态加载


最终建议(按优先级)

必做:

  1. 启用 QMD
  2. 启用 Prompt Caching
  3. 精简 Workspace 文件

进阶:

  1. memory-hygiene
  2. 子 Agent
  3. 模型分级策略

结语

OpenClaw 不是费钱。

错误的使用方式才费钱。

当上下文被精准控制后:

  • 速度更快
  • 回答更准
  • 成本降低 90%+

长期运行 Agent 的人,早晚都会做这一步。

不如现在就开始。