养殖龙虾(OpenClaw),你必须配置这些虾粮和工具

0 阅读19分钟

赛博龙虾 (OpenClaw) 养殖指南

附配置清单

1. 先把龙虾 OpenClaw 本身说清楚

OpenClaw 不是单纯的聊天工具,也不是一组零散的 agent 工具。它更准确的身份是:一个自托管的 Gateway 驱动型 AI 操作系统。你在自己的电脑或服务器上运行一个 Gateway 进程,这个 Gateway 负责统一管理会话、路由、渠道连接和控制界面;然后 Telegram、WhatsApp、飞书、钉钉、企业微信、Web UI、CLI,甚至移动端节点,都会围绕这个 Gateway 工作。官方甚至直接把 Gateway 描述成 sessions、routing 和 channel connections 的单一事实来源。

所以,讨论“一个优秀的 OpenClaw 应该具备什么”,不能从“装什么模型”开始,而要从它的系统本质开始:它首先是一个控制界面,其次才是一个会说话、会用工具、会跑流程的助手。这也是为什么 OpenClaw 的配置中心是 ~/.openclaw/openclaw.json,为什么官方主路径是 openclaw onboard 和 openclaw gateway,以及为什么一旦配置不符合 schema,Gateway 会直接拒绝启动。

Image

2. OpenClaw,看三层,能力/框架/组件

如果把 OpenClaw 说得最自然,它其实可以被理解成三层结构。

能力层回答的是:这个系统最终能做成什么。

框架层回答的是:它靠什么运行机制把这些事稳定做成。

组件层回答的是:这些机制最后具体落成了哪些可部署、可配置、可审计的实体。

这三层不是并列摆放的目录,而是从上往下收束的关系。能力层是“目的”,框架层是“组织方式”,组件层是“落地载体”。

3. 能力层:真正应该形成什么闭环

一个成熟的 OpenClaw,能力上不应该被理解成“会聊天 + 会调工具”,而应该被理解成一个完整闭环:能接入,能理解,能编排,能执行,能记住,能复用,能约束自己,也能被审计。官方首页强调它是 self-hosted、multi-channel、agent-native;工具能力是它的原生核心能力;安全文档强调它不是 hostile multi-tenant 平台。这三件事合在一起,才是它完整的能力边界。

首先,它要有接入能力。这不是“把 bot token 配进去”那么简单,而是要能在多个渠道下稳定收发消息、识别发送者、维护会话边界,并把不同入口统一收束到 Gateway。官方明确支持多渠道和多智能体路由,甚至把“按 agent、workspace 或 sender 隔离 session”列为关键能力之一。换句话说,优秀 OpenClaw 的第一能力不是回答问题,而是把消息正确地接到对的 agent 上。

其次,它要有推理能力,但这里的推理不是“选个更强模型”这么简单。OpenClaw 的推理能力本质上是“主模型 + 回退模型 + 认证轮换 + 会话粘性”的组合能力。官方模型与配置文档都表明,OpenClaw 支持模型 allowlist、fallback、auth profiles,以及在失败时的轮换与降级。真正优秀的配置,追求的不是单次回答最聪明,而是系统长期在线时依然稳定、连续、成本可控。

再者,OpenClaw 还必须有上下文和记忆能力。这里的关键不是“上下文窗口有多大”,而是工作区是否被当成 agent 的长期家园。官方把 workspace 直接定义为 agent 的 home,并明确区分它和 ~/.openclaw/ 下的配置、凭证、会话数据;同时还给出一整套工作区文件地图,例如 AGENTS.md、SOUL.md、USER.md、TOOLS.md、MEMORY.md 等。也就是说,一个优秀 OpenClaw 的稳定性,来自结构化上下文,而不是临时 prompt 的堆积。

然后再到执行能力。OpenClaw 的工具系统已经不是旧式的 shell 拼接,而是一组类型化的工具:browser、canvas、nodes、cron、exec、web_search、web_fetch、message、sessions_* 等都在同一个工具体系里;同时又能通过 tools.allow / tools.deny 做边界控制。于是,“执行能力”在 OpenClaw 里真正意味着:系统不仅能做事,而且能在明确权限范围里做事。

而在这些能力中间,真正把系统从“会用工具的助手”抬升为“可长期运行的系统”的,是工作流能力。这个能力是目前很多基础模型最难的地方,其实它在逻辑上非常居中:接入和理解告诉系统“要做什么”,工具和浏览器告诉系统“能做什么”,而工作流决定的是“这些事如何按步骤、有顺序、可暂停、可恢复地完成”。Lobster 被官方定义为 typed workflow runtime,能够把多步工具序列收束为一次确定性操作,并带审批检查点;OpenProse 则是 markdown-first workflow format,能生成多个子智能体并显式控制流程;cron 和 webhook 又负责把这些流程接到时间和事件上。换句话说,工作流不是附属功能,而是 OpenClaw 的“中段肌肉”。没有它,系统只有动作;有了它,系统才有过程。

最后,一个优秀 OpenClaw 还必须有安全与运维能力。官方安全文档写得很明确:它假定的是单一信任边界下的个人助手模型,而不是多个不互信用户共享同一 gateway 的敌对环境;官方配置文档也明确要求严格 schema 验证,配置错了就不启动;runbook 则提供 status、logs、doctor 之类的运维路径。也就是说,真正成熟的 OpenClaw,不是“能跑起来”,而是知道自己能做什么、不能做什么,出问题时还能自行检查和修复。

Image

4. 框架层:这些能力为什么能成立

如果说能力层回答“它会什么”,那框架层回答的就是“它为什么会这些”。

**最外层是控制平面框架。**Gateway 是整个系统的中枢,不只是一个监听端口的进程。它统一承载 sessions、routing、channel connections、Control UI 和运行状态,因此它不是普通组件,而是整个系统的主框架。先有 Gateway,才有后面的多渠道、多 agent、多会话、多工具。

**在控制平面之内,第二层是接入与会话框架。**消息从不同渠道进来后,系统要决定由谁处理、进入哪个会话、用哪个 agent、落到哪个 workspace。这也是为什么 OpenClaw 文档不断强调 sender/session/agent/workspace 的关系。没有这一层,渠道再多也只是更多入口,不会形成稳定系统。

**第三层是模型路由框架。**优秀 OpenClaw 从来不是“绑定一个模型”,而是“为不同失败模式、不同授权方式和不同任务复杂度准备一套路由机制”。这套框架让模型层从脆弱的外部依赖,变成可管理的系统资源。

**第四层是上下文管理框架。**工作区之所以重要,不是因为它是一个目录,而是因为它把规则、人格、用户、记忆、工具说明这些原本容易混杂在 prompt 里的内容,拆解成长期可维护的结构。这样 agent 的“持续性”才来自文件体系,而不是来自一次性对话偶然性。

**第五层是工具与 Skills 框架。**OpenClaw 现在同时保留了两类东西:一类是 typed 的工具,负责“直接做事”;另一类是兼容 Agent Skills 的技能目录,负责“教模型如何更好地做事”。官方明确写到,Skills 以 SKILL.md 为核心,并从 bundled、~/.openclaw/skills、/skills 三层加载,workspace 优先级最高。于是这层框架的作用,不只是给系统加能力,更是给系统加方法。

**第六层,流程编排框架。**工作流不是单一能力,也不是单一组件,而是一种把模型、工具、上下文、审批和触发机制组织起来的运行方式。Lobster 负责确定性、多步骤、可审批、可恢复的执行流;OpenProse 负责多智能体、显式控制流的认知流;cron、hooks、webhooks 则负责让流程被时间或事件启动。这样看,工作流不是“和自动化并列的一个小功能”,而是把执行能力和自动化能力联结起来的骨架。

**第七层是浏览器与执行隔离框架。**OpenClaw 的浏览器文档反复强调 openclaw 是独立、受控、与个人浏览器隔离的 profile;workspace 文档又强调 workspace 不是硬沙箱,真正隔离要靠 sandbox。于是浏览器、workspace、sandbox、nodes 实际共同组成了“动作发生在哪里、以什么边界发生”的执行框架。

**最内层则是安全与运维治理框架。**严格配置校验、日志、doctor、安全审计、trust boundary,它们决定系统是否长期在线。OpenClaw 官方把这套治理能力直接写进配置、runbook 和安全文档里,是架构的一部分。

5. 组件层:前两层最后落成什么

到了组件层,就不再谈抽象结构,而是谈真正要部署、配置和治理的东西。

核心组件永远是 Gateway daemon + openclaw.json + Control UI + CLI 运维命令。这四类东西决定系统是否真的存在、是否可管理、是否可诊断。

围绕 Gateway,第一圈是渠道组件,也就是 Telegram、WhatsApp、飞书、钉钉 等连接器,以及它们对应的 allowlist、群规则和会话策略。第二圈是模型组件,包括主模型、回退模型、认证 profile、模型 allowlist。第三圈是工作区组件,也就是 AGENTS.md、SOUL.md、USER.md、MEMORY.md 这一整组长期上下文文件。第四圈是工具与技能组件,包括 typed tools、本地或 workspace skills、SKILL.md 和 skills 配置项。第五圈是浏览器组件,尤其是独立的 openclaw profile。第六圈是隔离与节点组件,包括 sandbox 和 nodes。最后一圈则是运维组件,例如 logs、doctor、安全审计、cron 存储与状态目录。

而工作流模块在组件层里的落点,也应该被自然地看作一整组东西,而不是一个孤立名词。它包括:Lobster 的 workflow 定义与运行入口,OpenProse 的 .prose 程序与 /prose 命令,cron 的 jobs.json 与执行记录,审批与恢复所需的 resumeToken 一类状态,以及 webhook/hook 的触发入口。把这些看成一组,你就会发现:工作流在组件层里并不是“多一个功能”,而是多了一条完整的生产线。图像

6. 一段话表述

如果要用一句最像“正式架构说明书”的话来收束:

OpenClaw 是一个以 Gateway 为控制平面的自托管 AI 助手系统;它在能力层上形成接入、推理、记忆、执行、工作流、自动化、安全与运维的闭环,在框架层上由控制平面、会话路由、模型路由、上下文管理、工具/Skills、流程编排、浏览器与隔离执行、安全治理等框架支撑,在组件层上则落实为 Gateway、渠道连接器、模型与认证配置、工作区文件、tools、skills、workflow runtime、browser profile、sandbox、cron、日志和审计等组件。

要想让你的龙虾openclaw具有很强的复杂任务处理能力,必须进行不断的优化迭代和组件配置。下面整理了比较常用的组件和配置清单:

Openclaw配置清单

一、推荐模型

1.1 主模型

Claude Opus 4.6|复杂规划强

GPT-5.4|通用最稳

Kimi K2.5|长上下文强

GLM-5|国产主力

Qwen 3.5系列|生态兼容强

OpenClaw 官方 provider 目录已包含 GLM models、Moonshot AI、Qwen、MiniMax;Moonshot 官方文档说明 Kimi K2.5 支持 256K 长上下文和 Tool Calling;Qwen 官方文档说明其提供兼容 OpenAI Chat Completion 的接口,便于迁移。

1.2 快速模型

Gemini 3.1 Flash Lite Preview|便宜够快

Gemini 3 Flash Preview|多模态快

Kimi K2 Turbo Preview|响应更快

GLM-5|性价比高

Qwen-3.5 Plus|成本更低

Moonshot 官方文档给出了 kimi-k2-turbo-preview;智谱文档显示 GLM-4.7 与 GLM-5 面向高频和复杂任务分工使用;Qwen 提供兼容 OpenAI 的接口,适合做快速路由层。

1.3 视觉 / 视频模型

Gemini 3.1 Pro Preview|视频更强

GPT-5.3    |图文通吃

Claude Opus 4.6    |图文稳健

GLM 4.6V    |国产可替

Qwen 2.5VL/ Qwen 3VL|国产可替

Kimi VL/Kimi K2.5    |国产可替

OpenClaw 原生支持 image/audio/video media understanding;Qwen provider 页面明确提到 Qwen Vision;智谱官网明确提供多模态视觉模型;Moonshot 官方文档写到 Kimi K2.5 支持 visual reasoning。

1.4 语音转写模型

Deepgram Nova-3|转写专业

GPT-4o-transcribe|接入省事

Whisper-1|速度快

GLM-TTS|通话一体

Qwen3-TTS|国产可接

智谱文档明确提供 GLM-TTS,支持实时音视频通话、多模态交互和函数调用;OpenClaw 也支持独立 transcription providers。

1.5 语音合成 / TTS

ElevenLabs|音色成熟

gpt-4o-mini-tts|接入省事

Edge TTS|轻量免费

Qwen3-TTS|国产可用

Qwen CosyVoice|可定制音色

MiniMax Speech|国产常用

阿里云官方文档显示 Qwen-TTS 已提供正式 API,且 Qwen CosyVoice 支持通过文本描述生成自定义声音;OpenClaw 官方 TTS 文档支持多家 TTS 后端。

1.6 本地模型

Ollama|隐私优先

vLLM|自托管强

CLI backend|断网兜底

Qwen 本地开源模型|国产本地

DeepSeek 开源模型|国产本地

OpenClaw 官方 provider 目录包含 Ollama 和 vLLM,本地部署仍是隐私优先的最佳方案。

二、推荐多 Agent 架构

主助理 Agent|任务规划、路由分派与结果整合

快速闲聊 Agent|高频问答与低延迟对话

执行 Agent|工具调用与流程执行

视觉媒体 Agent|图片、视频等多模态理解

语音通话 Agent|实时语音交互与转写合成

研究分析 Agent|复杂检索、推理与长链任务

本地私密 Agent|敏感数据与本地闭环处理

发布运营 Agent|内容生成、审核与分发执行

OpenClaw 原生支持 multi-agent routing,并允许按 agent、workspace、sender 做隔离;这意味着你完全可以把国内模型和海外模型混合放进不同 agent。

三、推荐多 Agent / 工作流框架

OpenClaw Native Multi-Agent|负责隔离、路由与上下文边界

OpenProse|多 Agent 协同、任务流转与控制

Lobster|审批、恢复与长流程确定性执行

cron|定时周期性任务调度

hooks / webhooks|事件触发

这是 OpenClaw 自己最成熟的流程层:OpenProse 负责多 agent 控制流,Lobster 负责确定性工作流和审批恢复,cron / hooks / webhooks 负责触发。

⚲ OpenProse 网址:docs.openclaw.ai/prose

四、推荐 MCP

原则不变:原生 tools 优先,MCP 负责外部系统。 但这次把国内常用系统补进来。OpenClaw 官方本身已经把 browser、canvas、nodes、cron 做成一等工具,所以 MCP 不要抢主位。

4.1 必配 MCP

Filesystem MCP|文件刚需

GitHub MCP|代码协作

PostgreSQL MCP|查库常用

MySQL MCP|业务常见

HTTP / Fetch MCP|API 通用

Playwright MCP|网页补强

4.2 常用海外办公 MCP

Google Drive MCP|办公常用

Notion MCP|知识库常用

Slack MCP|团队协作

Gmail MCP|邮件闭环

Google Calendar MCP|日程闭环

4.3 常用国内办公 MCP

飞书 / Lark MCP|中文团队常用

企业微信 MCP|国内协作常用

钉钉 MCP|企业常见

腾讯文档 MCP|文档协作

腾讯会议 / 飞书会议 MCP|会议联动

阿里云 OSS MCP|文件存储

百度智能云千帆 MCP|云侧接入

阿里云百炼 MCP|模型编排

微信公众号 / 视频号 MCP|内容分发

OpenClaw 官方 provider 目录已包含 Qianfan、Qwen、MiniMax、Moonshot、GLM 等国内 provider,这意味着做“国产云 + OpenClaw”的组合是顺路的。

五、推荐 Skills 与配置逻辑

5.1 官方内置 Skills

  • summarize

     —— 链接速读官方内置 skill,可总结 URL、PDF、文章、YouTube 链接,并支持 best-effort transcript 提取。

  • voice-call skill

     —— 电话控制官方仓库内置 skill,用来配合官方 Voice Call 插件做拨号、接听和通话控制。

  • skill-creator

     —— 生成新 skill官方仓库内置 skill,适合让 agent 帮你创建或改造本地/工作区 skills。

  • gog

     —— Google Workspace / Google 服务官方仓库内置 skill,属于可直接确认存在的 bundled skill。

这几个里面,真正通用且值得默认装上的,还是 summarize 和 skill-creator;voice-call skill 只在你要上电话能力时装,gog 更偏特定场景。这个判断是基于官方仓库能确认的 skill 存在性,以及官方把大量原先 skill 型能力迁移到原生 tools 的事实。

⚲ summarize: github.com/openclaw/openclaw/blob/main/skills/summarize/SKILL.md

⚲ voice-call skill: github.com/openclaw/openclaw/blob/main/skills/voice-call/SKILL.md

⚲ skill-creator: github.com/openclaw/openclaw/tree/main/skills/skill-creator

⚲ gog: github.com/openclaw/openclaw/tree/main/skills/gog

5.2 真正应该“多配”的三大层级

官方把大量原先 skill 型能力迁移到了原生 tools 中。所以正确的扩展逻辑应该是:

  1. 原生 tools (核心执行)

    包括 browser, canvas, nodes, cron, process, pdf 等。这些已经是官方主能力层,优先级绝对高于 skills。

  2. 官方 plugins (系统底座)

    包括 Memory Core, Memory LanceDB, Voice Call 及模型认证插件等。

  3. ClawHub / Workspace Skills (场景扩展)

    按需安装 summarize、skill-creator 等通用技能,再根据需求从 ClawHub 补充行业专属 Skills。

5.3 技能层最终落地建议

【默认装】:

summarize (通用最高)、skill-creator (扩展最强)、voice-call skill (通话再装)、gog (按需)

【默认开】:

browser (网页核心)、canvas (结果展示)、cron (自动化)、nodes (设备扩展)、pdf (文档理解)

【默认插件】:

Memory Core (基础必备)、Memory LanceDB (长期记忆)、Voice Call (电话能力)、qwen-portal-auth (国内模型)

【后续补充】:

ClawHub 行业 skills (按场景装)、workspace skills (按团队装)

六、推荐 Plugins

为了让系统具备更强大的连接、记忆和编排能力,以下是重点推荐的官方与生态 Plugins 清单(已扩充):

6.1 核心路由与编排

OpenProse Plugin|多 Agent 编排核心

Memory LanceDB|高性能向量长期记忆

Memory PostgreSQL|企业级结构化记忆库

Memory Core|轻量级上下文管理底座

6.2 身份验证与模型接入

Qwen Portal Auth Plugin|走设备码的国内接入优选

Google Gemini CLI Auth|Gemini 模型无缝接入

Anthropic Auth Plugin|Claude 生态标准授权

Google Antigravity Auth|谷歌生态综合鉴权

6.3 渠道与扩展通信

Voice Call Plugin|提供底层拨号/接听核心支持

◆**@openclaw/slack**|团队协作 Slack 渠道直连

◆**@openclaw/discord**|社区运营 Discord 渠道支持

◆**@openclaw/msteams**|微软 Teams 企业级渠道

◆**@openclaw/matrix**|开源去中心化 Matrix 渠道

MCP Gateway Plugin|统一管理多个 MCP 服务的底座

注:OpenClaw 官方 Qwen provider 页面明确要求启用 qwen-portal-auth 插件来走 Qwen 的 device-code OAuth,属于国内模型接入的必装插件。

⚲ Qwen Portal Auth Plugin 网址:docs.openclaw.ai/providers/qwen

⚲ Voice Call Plugin 网址:docs.openclaw.ai/plugins/voice-call

七、推荐核心组件

7.1 语音对话能力

Talk Mode|连续对话

STT 引擎|语音转文

TTS 引擎|文字出声

Node 设备|采集方便

主会话绑定|上下文稳

GLM-Realtime|国产替代

Qwen-TTS|国产替代

OpenClaw 已支持 Talk Mode、音频理解和 TTS;智谱提供 GLM-Realtime,阿里云提供 Qwen-TTS。

7.2 文生图能力

图像生成服务|核心外接

插件或 MCP 接入|扩展最顺

发布回传通道|便于分发

审批节点|防误发

通义万相|国产优先

即梦 / 火山引擎图像|国内可选

智谱图像模型|国内可选

这块 OpenClaw 不是主内建,所以建议统一视为“外接图像生成层”;国内优先可考虑阿里、字节、智谱各自图像服务。OpenClaw 负责编排、回传和审批。

7.3 读图能力

Media Understanding|原生入口

视觉模型|理解关键

Browser 截图|网页读图

PDF 工具|文档读图

Qwen Vision|国产替代

GLM 视觉模型|国产替代

7.4 读视频能力

Media Understanding|原生入口

Gemini 3.1 Pro Preview|视频更强

Gemini 3 Flash Preview|视频更快

summarize skill|视频速读

GLM 视频理解|国产可替

Kimi 多模态|国产可替

7.5 读音频 / 语音笔记能力

Audio Understanding|原生入口

Deepgram Nova-3|转写专业

GPT-4o Mini Transcribe|接入顺手

GLM-Realtime|国产一体

Voice Note 通道|入口直接

7.6 克隆语音能力

ElevenLabs Voice Cloning|现成成熟

Qwen Voice Design|国产可定制

OpenClaw TTS 出口|直接播报

声纹授权流程|合规必需

审批开关|防滥用

7.7 语音通话能力

Voice Call Plugin|通话核心

Twilio|海外成熟

Telnyx|海外备选

Plivo|海外备选

GLM-Realtime|国内补位

独立语音 Agent|便于调优

7.8 PDF / 文档理解能力

PDF Tool|原生支持

视觉模型|复杂版面

summarize skill|快速摘要

Qwen Vision|国产替代

GLM 视觉模型|国产替代

7.9 浏览器自动化能力

Managed Browser|隔离账号

Browser Tool|原生控制

Playwright MCP|补自动化

审批节点|防误点

八、推荐渠道

Telegram|调试方便

WhatsApp|主力入口

Discord|团队协作

WebChat / Control UI|本地控制

iOS Node|移动增强

Android Node|移动增强

企业微信入口|国内常用

飞书入口|国内常用

微信公众号入口|内容触达

九、推荐安全配置

token auth|先关入口

allowlist / pairing|控触发面

per-agent tools|最小权限

per-agent sandbox|隔离风险

secrets 管理|防明文钥

security audit|持续收敛

managed browser|隔离账号

十、组合配置

10.1 个人全能版

▪ 主模型:Claude Opus 4.6 —— 规划更强

▪ 国产副主力:Kimi K2.5 —— 长文更强

▪ 快速模型:Qwen Turbo / GLM-5 —— 成本更低

▪ 视觉模型:Gemini 3.1 Pro Preview + Qwen Vision —— 中外双路

▪ 转写:Deepgram Nova-3 + GLM-Realtime —— 双路兜底

▪ 语音输出:ElevenLabs + Qwen-TTS —— 中外双路

▪ 多 Agent:主助理 + 快聊 + 执行 + 视觉 + 语音 + 私密 —— 分工清晰

▪ 工作流:OpenProse + Lobster + cron —— 闭环完整

▪ Skills:summarize + voice-call + OpenProse pack —— 来源明确

▪ MCP:Filesystem + GitHub + Postgres + 飞书 + 企业微信 + 腾讯文档 + Playwright —— 中外兼顾

10.2 性价比国产优先版

▪ 主模型:GLM-5 —— 国产主力

▪ 快速模型:GLM-4.7 / Qwen Turbo —— 控成本

▪ 长文模型:gpt-5.4/Kimi K2.5 —— 长上下文

▪ 视觉模型:Qwen Vision / GLM 视觉 —— 国产优先

▪ 转写:GLM-Realtime / Qwen 音频链路 —— 国产优先

▪ 语音输出:Qwen-TTS —— 接口现成

▪ 工作流:OpenProse + Lobster —— 核心不变

▪ Plugins:Qwen Portal Auth + Voice Call —— 接入顺

▪ MCP:Filesystem + MySQL + 飞书 + 企业微信 + 钉钉 + 腾讯文档 —— 国内办公优先

10.3 隐私优先版

▪ 主模型:Ollama / vLLM —— 数据本地

▪ 国产本地模型:Qwen 开源模型 / DeepSeek 开源模型 —— 国产本地

▪ 转写:本地 Whisper —— 本地闭环

▪ 语音输出:Edge TTS / 本地 TTS —— 降低外连

▪ 多 Agent:主助理 + 私密 Agent —— 边界清晰

▪ 工作流:OpenProse + Lobster —— 本地编排

▪ MCP:Filesystem + 本地数据库 —— 最少外连

▪ 安全:全量 sandbox + allowlist —— 风险最低