OpenClaw 用着爽但 token 太贵?其实有免费的方案

4 阅读1分钟

OpenClaw 用着爽但 token 太贵?其实有免费的方案

先说说我的账单

OpenClaw 确实好用,自动拆任务、多 agent 协作、代码写完还能自己跑测试——这体验一旦用上就回不去了。

但用了一周,我打开 API 后台看了眼账单,心里一凉。

光是日常写写 CRUD、改改 bug,每天 token 消耗就不少。如果碰上要重构一个模块,或者让它反复调试一个复杂逻辑,token 蹭蹭地涨。一个月算下来,这钱够我续两个月 GitHub Copilot 了。

关键是,OpenClaw 的工作模式决定了它就是"吃 token 大户"——多轮对话、思维链、代码生成+修正+再生成,每个环节都在消耗。这不是你能省的,少给 token 它就干不好活。

你可能不知道,市面上有一堆免费配额

我后来研究了一圈,发现一个被很多人忽略的事实:好几家推理平台都提供了相当可观的免费额度,而且模型质量完全够用。

随便列几个:

平台每天免费配额可用模型推理速度
Groq14,400 次请求Llama 3.3 70B~750 tokens/秒
Cerebras100 万 tokenLlama 70B~2000 tokens/秒
SambaNova200K tokenLlama 405B-
Gemini免费层级Gemini 系列(100万上下文窗口)-
OpenRouter50 次/天30+ 模型-
Kiro50 credits/月 + 新用户 500 creditsClaude Sonnet-
Windsurf25 credits/月 + 无限自动补全多模型-

看到 Cerebras 那行了吗?每天 100 万 token,速度还是 2000 tokens/秒。Groq 的 Llama 3.3 70B 每天能调 14,400 次,速度 750 tokens/秒。

这些免费配额加起来,日常开发完全够用了。

但问题是:怎么把这些免费配额接到 OpenClaw 里去?

每个平台的 API 格式不一样,认证方式不一样,endpoint 也不一样。你总不能每换一个平台就去改一遍 OpenClaw 的配置吧?而且有些平台今天额度用完了想切到另一个,难道手动编辑配置文件改完再重启?

太折腾了。

其实有个免费方案——OpenRelay

我后来找到了一个叫 OpenRelay 的开源工具,它干的事情说白了就一句话:把上面这些免费(和付费)配额全部聚合起来,统一暴露成一个本地 API 端点

你在本地跑一个 OpenRelay,它帮你把 Groq、Cerebras、SambaNova、Gemini 这些全部接好。OpenClaw 只需要对着 http://localhost:18765 发请求就行,不用关心后面是谁在干活。

装起来很快

macOS(Apple Silicon):

curl -L -o openrelay https://github.com/romgX/openrelay/releases/latest/download/openrelay-macos-arm64 && chmod +x openrelay && ./openrelay

Windows:

Invoke-WebRequest -Uri "https://github.com/romgX/openrelay/releases/latest/download/openrelay-windows-x64.exe" -OutFile openrelay.exe; .\openrelay.exe

跑起来之后,浏览器打开 http://localhost:18765,会看到一个 Web 面板。在面板里把你想用的免费平台勾上、填好对应的 API key(去各平台注册就能拿到免费的),保存。

接入 OpenClaw

这一步是最简单的。OpenClaw 支持通过环境变量配置模型端点,你只需要:

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused

然后正常启动 OpenClaw 就行。所有请求会走到 OpenRelay,OpenRelay 再分发到你配置的免费平台。

ANTHROPIC_API_KEYunused 就行,因为实际的认证是 OpenRelay 在本地处理的。

重开一个终端窗口,设好这两个环境变量,启动 OpenClaw——搞定。

实际效果

我自己的使用习惯是这样的:

  • 日常写业务代码:切换到 Groq 的 Llama 3.3 70B,速度快得飞起(750 tokens/秒),简单任务质量完全够
  • 需要处理复杂逻辑:用 SambaNova 的 Llama 405B,参数量大,推理能力更强
  • 需要超长上下文:切 Gemini,100 万 token 的上下文窗口,整个项目丢进去都行
  • Groq 额度用完了:自动切到 Cerebras,每天 100 万 token 兜底

一天下来,基本不花钱。只有偶尔需要 GPT-4 级别的精确度时,才会用到付费额度。

不止 OpenClaw

这个方案的好处是,不止 OpenClaw 能用

你手头可能还有 Claude Code、Aider、Cursor 这些工具。OpenRelay 跑在本地 18765 端口,任何支持自定义 API 端点的工具都能接进来。

比如 Claude Code:

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
claude

比如 Aider:

export ANTHROPIC_BASE_URL=http://localhost:18765
export ANTHROPIC_API_KEY=unused
aider --model anthropic/claude-3-sonnet

一套配额,所有工具共享。

而且 OpenRelay 的 Web 面板可以直接管理这些配置——点一下切换模型,重开终端就生效,不用到处改配置文件。

关于安全

我知道你在想什么:"我把 API key 交给一个第三方工具,安全吗?"

几个事实:

  1. 凭据只存在本地进程内存里,不会发到任何中间服务器
  2. 所有请求都是从你本机直接打到各平台的 API,OpenRelay 是个纯本地代理,不经过第三方
  3. 完全开源,代码就在 GitHub 上,你可以自己审计

这也是我愿意用它的原因。如果它是个闭源的云服务,我肯定不碰。

算笔账

假设你日常用 OpenClaw 开发,每天消耗大约 50 万 token(中等强度使用):

  • 纯用 Claude API:大约 7.5/天(按Sonnet3.5定价),一个月7.5/天(按 Sonnet 3.5 定价),一个月 225
  • 用 OpenRelay 接免费配额:Cerebras 每天 100 万 token + Groq 每天 14,400 次请求,日常开发基本覆盖,偶尔超出再用付费的

就算打个折,每个月至少省 $100+。一年下来够买个不错的机械键盘了。

最后

OpenClaw 本身是个好工具,token 贵不是它的问题,是 LLM 推理本身就贵。但市面上有这么多免费额度摆在那里,不用白不用。

OpenRelay 就是帮你把这些散落的免费配额拢到一起,然后接到你正在用的工具里。一个本地代理,开源免费,没有什么玄学。

感兴趣的话:

装上试试,反正也不花钱。token 省下来的钱,请自己喝杯咖啡不好吗 ☕