OpenClaw 用着爽但 token 太贵？其实有免费的方案OpenClaw 用着爽但 token 太贵？其实有免费的

OpenClaw 用着爽但 token 太贵？其实有免费的方案

先说说我的账单

OpenClaw 确实好用，自动拆任务、多 agent 协作、代码写完还能自己跑测试——这体验一旦用上就回不去了。

但用了一周，我打开 API 后台看了眼账单，心里一凉。

光是日常写写 CRUD、改改 bug，每天 token 消耗就不少。如果碰上要重构一个模块，或者让它反复调试一个复杂逻辑，token 蹭蹭地涨。一个月算下来，这钱够我续两个月 GitHub Copilot 了。

关键是，OpenClaw 的工作模式决定了它就是"吃 token 大户"——多轮对话、思维链、代码生成+修正+再生成，每个环节都在消耗。这不是你能省的，少给 token 它就干不好活。

你可能不知道，市面上有一堆免费配额

我后来研究了一圈，发现一个被很多人忽略的事实：好几家推理平台都提供了相当可观的免费额度，而且模型质量完全够用。

随便列几个：

平台	每天免费配额	可用模型	推理速度
Groq	14,400 次请求	Llama 3.3 70B	~750 tokens/秒
Cerebras	100 万 token	Llama 70B	~2000 tokens/秒
SambaNova	200K token	Llama 405B	-
Gemini	免费层级	Gemini 系列（100万上下文窗口）	-
OpenRouter	50 次/天	30+ 模型	-
Kiro	50 credits/月 + 新用户 500 credits	Claude Sonnet	-
Windsurf	25 credits/月 + 无限自动补全	多模型	-

看到 Cerebras 那行了吗？每天 100 万 token，速度还是 2000 tokens/秒。Groq 的 Llama 3.3 70B 每天能调 14,400 次，速度 750 tokens/秒。

这些免费配额加起来，日常开发完全够用了。

但问题是：怎么把这些免费配额接到 OpenClaw 里去？

每个平台的 API 格式不一样，认证方式不一样，endpoint 也不一样。你总不能每换一个平台就去改一遍 OpenClaw 的配置吧？而且有些平台今天额度用完了想切到另一个，难道手动编辑配置文件改完再重启？

太折腾了。

其实有个免费方案——OpenRelay

我后来找到了一个叫 OpenRelay 的开源工具，它干的事情说白了就一句话：把上面这些免费（和付费）配额全部聚合起来，统一暴露成一个本地 API 端点。

你在本地跑一个 OpenRelay，它帮你把 Groq、Cerebras、SambaNova、Gemini 这些全部接好。OpenClaw 只需要对着 http://localhost:18765 发请求就行，不用关心后面是谁在干活。

装起来很快

macOS（Apple Silicon）：

curl -L -o openrelay https://github.com/romgX/openrelay/releases/latest/download/openrelay-macos-arm64 && chmod +x openrelay && ./openrelay

Windows：

Invoke-WebRequest -Uri "https://github.com/romgX/openrelay/releases/latest/download/openrelay-windows-x64.exe" -OutFile openrelay.exe; .\openrelay.exe

跑起来之后，浏览器打开 http://localhost:18765，会看到一个 Web 面板。在面板里把你想用的免费平台勾上、填好对应的 API key（去各平台注册就能拿到免费的），保存。

接入 OpenClaw

这一步是最简单的。OpenClaw 支持通过环境变量配置模型端点，你只需要：

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused

然后正常启动 OpenClaw 就行。所有请求会走到 OpenRelay，OpenRelay 再分发到你配置的免费平台。

ANTHROPIC_API_KEY 写 unused 就行，因为实际的认证是 OpenRelay 在本地处理的。

重开一个终端窗口，设好这两个环境变量，启动 OpenClaw——搞定。

实际效果

我自己的使用习惯是这样的：

日常写业务代码：切换到 Groq 的 Llama 3.3 70B，速度快得飞起（750 tokens/秒），简单任务质量完全够
需要处理复杂逻辑：用 SambaNova 的 Llama 405B，参数量大，推理能力更强
需要超长上下文：切 Gemini，100 万 token 的上下文窗口，整个项目丢进去都行
Groq 额度用完了：自动切到 Cerebras，每天 100 万 token 兜底

一天下来，基本不花钱。只有偶尔需要 GPT-4 级别的精确度时，才会用到付费额度。

不止 OpenClaw

这个方案的好处是，不止 OpenClaw 能用。

你手头可能还有 Claude Code、Aider、Cursor 这些工具。OpenRelay 跑在本地 18765 端口，任何支持自定义 API 端点的工具都能接进来。

比如 Claude Code：

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
claude

比如 Aider：

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
aider --model anthropic/claude-3-sonnet

一套配额，所有工具共享。

而且 OpenRelay 的 Web 面板可以直接管理这些配置——点一下切换模型，重开终端就生效，不用到处改配置文件。

关于安全

我知道你在想什么："我把 API key 交给一个第三方工具，安全吗？"

几个事实：

凭据只存在本地进程内存里，不会发到任何中间服务器
所有请求都是从你本机直接打到各平台的 API，OpenRelay 是个纯本地代理，不经过第三方
完全开源，代码就在 GitHub 上，你可以自己审计

这也是我愿意用它的原因。如果它是个闭源的云服务，我肯定不碰。

算笔账

假设你日常用 OpenClaw 开发，每天消耗大约 50 万 token（中等强度使用）：

纯用 Claude API：大约 $7.5/天（按 Sonnet 3.5 定价），一个月$ 225
用 OpenRelay 接免费配额：Cerebras 每天 100 万 token + Groq 每天 14,400 次请求，日常开发基本覆盖，偶尔超出再用付费的

就算打个折，每个月至少省 $100+。一年下来够买个不错的机械键盘了。

最后

OpenClaw 本身是个好工具，token 贵不是它的问题，是 LLM 推理本身就贵。但市面上有这么多免费额度摆在那里，不用白不用。

OpenRelay 就是帮你把这些散落的免费配额拢到一起，然后接到你正在用的工具里。一个本地代理，开源免费，没有什么玄学。

感兴趣的话：

GitHub：github.com/romgX/openr…
Telegram 频道（更新通知）：t.me/openrelay_u…

装上试试，反正也不花钱。token 省下来的钱，请自己喝杯咖啡不好吗 ☕