用了三天本地模型跑 OpenClaw,被幻觉和慢速折磨到崩溃。换上云端 API 之后……真香。
前言
最近 OpenClaw 火得一塌糊涂,掘金热榜半壁江山都是它。我也跟风装了一个,本地跑了个 Qwen 模型,体验了三天 AI Agent 自动写代码。
怎么说呢?能用,但也仅限于"能用"。
本地 7B 模型写个简单的 CRUD 还行,一旦涉及到复杂业务逻辑、多文件重构,那幻觉率高得离谱。我亲眼看着它把我的 user_service.py 改成了一坨意大利面代码,还自信满满地说"优化完成"。😅
后来我一咬牙,把 API 后端换成了云端大模型,Claude 4.6、GPT-5.2 轮着用——效果完全不是一个级别。
这篇文章就分享一下,怎么给 OpenClaw 配上云端 API,以及我踩过的坑。
为什么只用本地模型不够?
先聊聊我用本地模型遇到的几个问题:
1. 代码质量天花板明显
本地能跑的模型基本在 7B-32B 之间(除非你是 4090 x4 大户)。这个参数量处理日常代码补全没问题,但让它做 Agent 级别的任务——理解项目架构、跨文件修改、复杂 debug——就力不从心了。
我做了个简单对比:
| 任务 | 本地 32B | Claude 4.6 | GPT-5.2 |
|---|---|---|---|
| 单文件 bug 修复 | ✅ 基本能搞 | ✅ 一次过 | ✅ 一次过 |
| 多文件重构 | ❌ 经常改错文件 | ✅ 理解项目结构 | ✅ 准确定位 |
| 复杂业务逻辑 | ⚠️ 幻觉率 ~40% | ✅ 逻辑清晰 | ✅ 逻辑清晰 |
| 测试用例生成 | ⚠️ 覆盖率低 | ✅ 边界情况全 | ✅ 覆盖率高 |
2. 速度其实也没快多少
很多人觉得本地模型的优势是"不用等网络"。但实际上,本地跑 32B 模型,token 生成速度大概 15-25 tokens/s。而云端 API 走国内加速节点,首 token 延迟 300-800ms,之后流式输出速度能到 80-120 tokens/s。
总体体验上,云端反而更流畅。
3. 模型切换不灵活
本地只能用一个模型。但实际开发中,不同任务适合不同模型:
- 写新功能 → Claude 4.6(逻辑推理强)
- 代码审查 → GPT-5.2(细节把控好)
- 快速补全 → DeepSeek V3(速度快、便宜)
OpenClaw 支持多模型切换,但前提是你的 API 后端得支持。
配置方案:3 分钟搞定
核心思路很简单:找一个支持 OpenAI 兼容协议的 API 服务商,把 base_url 和 api_key 配进 OpenClaw 就行。
我试了几种方案:
方案一:直连官方 API
直接用 OpenAI、Anthropic 的官方 API。
优点:最原汁原味
缺点:国内网络不稳定,经常超时;每家都要单独注册、单独付费、单独管理 key
如果你有稳定的代理环境,这是最直接的方案。但我在公司网络环境下试了,10 次请求有 3 次超时,体验不行。
方案二:自建代理中转
用 one-api 或者 new-api 自己搭一个中转服务。
优点:完全可控
缺点:要维护服务器、处理各家 API 的兼容性问题、自己做负载均衡
我之前确实搭过,但后来发现维护成本太高了。光是处理 OpenAI 的 429 限流和 Anthropic 的 header 格式差异就折腾了一整天。
方案三:用 API 聚合平台
这是我最后选的方案。一个 API key 就能调所有模型,不用操心网络和兼容性。
我用的是 ofox.ai,主要因为:
- 三协议兼容:OpenAI / Anthropic / Gemini 三种协议都支持,不用改代码
- 国内直连:阿里云 + 火山引擎加速节点,延迟 300-800ms
- 100+ 模型:GPT-5.2、Claude 4.6、Gemini 3.1 Pro、DeepSeek V3 都有
- 按量计费:不用包月,用多少算多少
下面是具体配置步骤。
实战:OpenClaw 接入云端 API
Step 1:获取 API Key
去 app.ofox.ai 注册一个账号,在控制台创建 API Key。整个过程两分钟搞定。
Step 2:配置 OpenClaw
OpenClaw 的 API 配置一般在设置里改。找到 API Provider 部分,选 openai-compatible,然后填入:
{
"apiProvider": "openai-compatible",
"openaiBaseUrl": "https://api.ofox.ai/v1",
"openaiApiKey": "你的 API Key",
"apiModelId": "anthropic/claude-opus-4-6"
}
这里有几个要点:
apiProvider设为openai-compatible:因为 ofox.ai 兼容 OpenAI 协议,OpenClaw 原生支持apiModelId用anthropic/claude-opus-4-6:日常开发主力,推理能力最强- 模型名格式是
provider/model-name,比如openai/gpt-5.2、deepseek/deepseek-chat
Step 3:验证配置
打开终端,让 OpenClaw 做个简单任务:
openclaw "用 Python 写一个快速排序,要求支持自定义比较函数"
看到流式输出正常响应就说明配好了。我这边首 token 延迟大概 400ms,整体体验很顺滑。
进阶:按任务切换模型
这才是云端 API 的精髓——不同任务用不同模型:
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 架构设计 / 复杂重构 | Claude Opus 4.6 | 逻辑推理最强 |
| 日常编码 / CRUD | GPT-5.2 | 均衡稳定 |
| 快速补全 / 简单任务 | DeepSeek V3 | 速度快、便宜 |
| 中文项目 | GLM-5 / 豆包 | 中文理解更好 |
OpenClaw 切模型很方便,直接改 apiModelId 就行,不用动其他配置。
代码实战:三种 SDK 都能用
有些场景你可能不只用 OpenClaw,还需要在自己的项目里调 API。好消息是三种主流 SDK 都能直接用。
Anthropic SDK 调 Claude(原生协议):
import anthropic
client = anthropic.Anthropic(
base_url="https://api.ofox.ai/anthropic",
api_key="你的 API Key"
)
message = client.messages.create(
model="anthropic/claude-opus-4-6",
max_tokens=4096,
messages=[
{"role": "user", "content": "帮我重构这段代码,提高可读性"}
]
)
print(message.content[0].text)
OpenAI SDK 调 GPT(兼容协议):
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="你的 API Key"
)
resp = client.chat.completions.create(
model="openai/gpt-5.2",
messages=[
{"role": "user", "content": "分析这段代码的性能瓶颈"}
],
stream=True
)
for chunk in resp:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="")
Google SDK 调 Gemini(原生协议):
import google.generativeai as genai
genai.configure(
api_key="你的 API Key",
transport="rest",
client_options={"api_endpoint": "https://api.ofox.ai/gemini"}
)
model = genai.GenerativeModel("gemini-3.1-pro")
response = model.generate_content("解释一下这段正则表达式")
print(response.text)
一个 Key,三种 SDK。对,我当初就是被这个打动的——不想管 N 把 key 和 N 个账单。
踩坑记录
分享几个我配置过程中踩过的坑,帮你少走弯路:
坑 1:模型名别写错
ofox 的模型名格式是 provider/model-name,比如 openai/gpt-5.2。别直接写 gpt-5.2,会报 model not found。这个错误信息不太明显,我排查了半小时。
坑 2:流式输出(SSE)要确认支持
OpenClaw 默认用 SSE 流式输出。如果你用的 API 不支持 stream: true,OpenClaw 会卡死没反应。ofox 三种协议都支持 SSE,这点不用担心。
坑 3:大项目记得调 max_tokens
Claude 4.6 支持 200K 上下文窗口,但 OpenClaw 默认 max_tokens 可能设得比较小。做大项目重构时记得调大:
{
"maxTokens": 8192,
"contextWindow": 128000
}
坑 4:并发限流要处理
多个 Agent 并行工作时容易触发 429 限流。建议在配置里加备用模型做降级:
{
"apiModelId": "anthropic/claude-opus-4-6",
"fallbackModels": [
"openai/gpt-5.2",
"deepseek/deepseek-chat"
]
}
主模型限流时自动切到备用,保证不断流。
效果对比
换上云端 API 一周后,体感提升最大的三个场景:
1. 多文件重构 🔥
Claude 4.6 能真正理解项目结构。改完 user_service.py 会自动检查 user_controller.py 和 user_test.py 的关联影响。本地模型经常改了 A 忘了 B,留下一堆 import error。
2. Debug 能力
丢一段报错信息给 GPT-5.2,直接定位根因,还会解释为什么出这个错。本地模型给你一个"可能是这样"的模糊回答,然后你还得自己去排查。
3. 写测试
让 Claude 帮你写测试用例,它会考虑到边界情况、异常路径、并发场景。本地模型写的测试基本就是 happy path,覆盖率感人。
总结
OpenClaw 本身是个好工具,但后端模型决定了它的上限。云端大模型(尤其是 Claude 4.6 和 GPT-5.2)的推理能力,确实比本地小模型强太多了。
配置很简单——找个支持 OpenAI 兼容协议的平台,配好 base_url 和 apiKey 就行。
如果你是团队在用,建议选支持团队模式的平台——一人注册全员共享,成员消耗用量一目了然,省得每个人都要单独管 key。
对了,如果你也在用 Claude Code 或者 Cursor,配置方法是一样的,都是改 API 地址。一套 key 所有工具通用。
有问题评论区见 👋