OpenClaw 用着爽但 token 太贵?其实有免费的方案
先说说我的账单
OpenClaw 确实好用,自动拆任务、多 agent 协作、代码写完还能自己跑测试——这体验一旦用上就回不去了。
但用了一周,我打开 API 后台看了眼账单,心里一凉。
光是日常写写 CRUD、改改 bug,每天 token 消耗就不少。如果碰上要重构一个模块,或者让它反复调试一个复杂逻辑,token 蹭蹭地涨。一个月算下来,这钱够我续两个月 GitHub Copilot 了。
关键是,OpenClaw 的工作模式决定了它就是"吃 token 大户"——多轮对话、思维链、代码生成+修正+再生成,每个环节都在消耗。这不是你能省的,少给 token 它就干不好活。
你可能不知道,市面上有一堆免费配额
我后来研究了一圈,发现一个被很多人忽略的事实:好几家推理平台都提供了相当可观的免费额度,而且模型质量完全够用。
随便列几个:
| 平台 | 每天免费配额 | 可用模型 | 推理速度 |
|---|---|---|---|
| Groq | 14,400 次请求 | Llama 3.3 70B | ~750 tokens/秒 |
| Cerebras | 100 万 token | Llama 70B | ~2000 tokens/秒 |
| SambaNova | 200K token | Llama 405B | - |
| Gemini | 免费层级 | Gemini 系列(100万上下文窗口) | - |
| OpenRouter | 50 次/天 | 30+ 模型 | - |
| Kiro | 50 credits/月 + 新用户 500 credits | Claude Sonnet | - |
| Windsurf | 25 credits/月 + 无限自动补全 | 多模型 | - |
看到 Cerebras 那行了吗?每天 100 万 token,速度还是 2000 tokens/秒。Groq 的 Llama 3.3 70B 每天能调 14,400 次,速度 750 tokens/秒。
这些免费配额加起来,日常开发完全够用了。
但问题是:怎么把这些免费配额接到 OpenClaw 里去?
每个平台的 API 格式不一样,认证方式不一样,endpoint 也不一样。你总不能每换一个平台就去改一遍 OpenClaw 的配置吧?而且有些平台今天额度用完了想切到另一个,难道手动编辑配置文件改完再重启?
太折腾了。
其实有个免费方案——OpenRelay
我后来找到了一个叫 OpenRelay 的开源工具,它干的事情说白了就一句话:把上面这些免费(和付费)配额全部聚合起来,统一暴露成一个本地 API 端点。
你在本地跑一个 OpenRelay,它帮你把 Groq、Cerebras、SambaNova、Gemini 这些全部接好。OpenClaw 只需要对着 http://localhost:18765 发请求就行,不用关心后面是谁在干活。
装起来很快
macOS(Apple Silicon):
curl -L -o openrelay https://github.com/romgX/openrelay/releases/latest/download/openrelay-macos-arm64 && chmod +x openrelay && ./openrelay
Windows:
Invoke-WebRequest -Uri "https://github.com/romgX/openrelay/releases/latest/download/openrelay-windows-x64.exe" -OutFile openrelay.exe; .\openrelay.exe
跑起来之后,浏览器打开 http://localhost:18765,会看到一个 Web 面板。在面板里把你想用的免费平台勾上、填好对应的 API key(去各平台注册就能拿到免费的),保存。
接入 OpenClaw
这一步是最简单的。OpenClaw 支持通过环境变量配置模型端点,你只需要:
export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
然后正常启动 OpenClaw 就行。所有请求会走到 OpenRelay,OpenRelay 再分发到你配置的免费平台。
ANTHROPIC_API_KEY 写 unused 就行,因为实际的认证是 OpenRelay 在本地处理的。
重开一个终端窗口,设好这两个环境变量,启动 OpenClaw——搞定。
实际效果
我自己的使用习惯是这样的:
- 日常写业务代码:切换到 Groq 的 Llama 3.3 70B,速度快得飞起(750 tokens/秒),简单任务质量完全够
- 需要处理复杂逻辑:用 SambaNova 的 Llama 405B,参数量大,推理能力更强
- 需要超长上下文:切 Gemini,100 万 token 的上下文窗口,整个项目丢进去都行
- Groq 额度用完了:自动切到 Cerebras,每天 100 万 token 兜底
一天下来,基本不花钱。只有偶尔需要 GPT-4 级别的精确度时,才会用到付费额度。
不止 OpenClaw
这个方案的好处是,不止 OpenClaw 能用。
你手头可能还有 Claude Code、Aider、Cursor 这些工具。OpenRelay 跑在本地 18765 端口,任何支持自定义 API 端点的工具都能接进来。
比如 Claude Code:
export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
claude
比如 Aider:
export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
aider --model anthropic/claude-3-sonnet
一套配额,所有工具共享。
而且 OpenRelay 的 Web 面板可以直接管理这些配置——点一下切换模型,重开终端就生效,不用到处改配置文件。
关于安全
我知道你在想什么:"我把 API key 交给一个第三方工具,安全吗?"
几个事实:
- 凭据只存在本地进程内存里,不会发到任何中间服务器
- 所有请求都是从你本机直接打到各平台的 API,OpenRelay 是个纯本地代理,不经过第三方
- 完全开源,代码就在 GitHub 上,你可以自己审计
这也是我愿意用它的原因。如果它是个闭源的云服务,我肯定不碰。
算笔账
假设你日常用 OpenClaw 开发,每天消耗大约 50 万 token(中等强度使用):
- 纯用 Claude API:大约 225
- 用 OpenRelay 接免费配额:Cerebras 每天 100 万 token + Groq 每天 14,400 次请求,日常开发基本覆盖,偶尔超出再用付费的
就算打个折,每个月至少省 $100+。一年下来够买个不错的机械键盘了。
最后
OpenClaw 本身是个好工具,token 贵不是它的问题,是 LLM 推理本身就贵。但市面上有这么多免费额度摆在那里,不用白不用。
OpenRelay 就是帮你把这些散落的免费配额拢到一起,然后接到你正在用的工具里。一个本地代理,开源免费,没有什么玄学。
感兴趣的话:
- GitHub:github.com/romgX/openr…
- Telegram 频道(更新通知):t.me/openrelay_u…
装上试试,反正也不花钱。token 省下来的钱,请自己喝杯咖啡不好吗 ☕