目前最详细的OpenClaw工作原理解析,附应用生态与相关资源

0 阅读15分钟

ScreenShot_2026-02-04_213845_465.png 全文约 5200 字,阅读时间 6 分钟

从 Clawbot 到 Moltbot 再到 OpenClaw,这个爆火的项目经过 3 次改名,截至 2 月 4 日已经在 github 累积获得了 160K star。 OpenClaw 是一款开源自托管的个人 AI 代理网关,本质是运行在用户自有设备上的自主式智能体助手,主打 “本地优先、隐私可控” 的设计理念,通过自然语言指令实现 PC 全功能自动化,真正做到 替用户做事 而非 仅回答问题。

该项目由 Peter Steinberger(PSPDFKit 创始人)创建,目前已有 378 位贡献者,并催生了一个由 8,900+ 开发者组成的社区,致力于构建个人 AI 基础设施。

与云端聊天机器人不同,OpenClaw 持续运行在用户自有硬件(比如 Mac Mini 以及各种 PC 设备)上,执行 shell 命令、管理文件,并协调多步骤工作流程,无需人工审核。

用户可以在 PC 或者手机上的 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat 等通讯软件上通过文字或者语音发布任务,它就可以在 PC 另一台设备上完成工作并把结果发送到用户的通讯软件上。

这个架构将智能(从 Anthropic、OpenAI 或本地模型借用)与 Agent(本地拥有和控制)进行了分离,使得技术社区所谓的“主权个人 AI”成为可能。

目前关于 OpenClaw 的安装配置教程已经有很多,详细阐述其技术框架和工作原理的文章很少见。本文将通过分析 OpenClaw 的技术框架、工作原理及当前已经形成的应用生态,让大家更深入的了解这个平台。

【PS:赠书福利见文末】

OpenClaw 工作原理

Hesam@Hesamation 原文来自 Hesam (@Hesamation) 发布于 X 的文章,链接见文末。

我研究了 OpenClaw 的架构,以及它处理智能体执行、工具调用、浏览器操作等功能的实现逻辑,其中诸多设计思路对 AI 工程师极具借鉴价值。深入了解 Clawd 的底层运行机制,能让我们更清晰地认识这套系统的功能边界,更重要的是,明确它的优势与短板。我最初的研究初衷,只是出于个人好奇,想探究 Clawd 的记忆机制设计及其运行可靠性。

在本文中,我将为大家浅述 Clawd 的核心运行原理。

Clawd 的技术本质

大家都知道,OpenClaw 是一款个人智能助手,可本地部署或通过大模型 API 调用,甚至在手机上就能轻松操作,但它的技术本质究竟是什么? OpenClaw 的核心是一个基于 TypeScript 开发的命令行应用(CLI),既非 Python 开发、也非基于 Next.js 的网页应用。作为一个独立运行进程,它的核心功能包括:

  • 在本地设备运行并启动网关服务器,处理全渠道连接(电报、WhatsApp、斯拉克等);
  • 调用大语言模型 API(Anthropic、OpenAI、本地模型等);
  • 本地执行各类工具指令;
  • 实现用户对电脑的各类操作需求。

技术框架

为了更通俗地解释其架构,我们以“向 Clawd 发送消息到获取反馈”的完整流程为例说明。

godofprompt-2017322070661611838-img1.jpg

(流程链路:用户消息 → 通道适配器 → 网关服务器 → 会话路由器 → 智能体运行器 → 模型解析器 → 系统提示词构建器 → 历史加载器 → 会话 → 任务通道队列 → 上下文窗口防护机制 → 大语言模型 API → 智能体循环 → 反馈通路 → 通道适配器 → 最终文本)

在即时通讯工具中向 Clawd 发送指令后,会依次触发以下环节:

1.通道适配器

通道适配器接收用户消息并进行预处理,包括消息标准化、提取附件等。不同的即时通讯工具和输入流,都配有专属的适配器。

2.网关服务器

作为任务与会话的协调中枢,网关服务器接收用户消息并将其分发至对应会话,是 Clawd 的核心模块,可处理多个并行的请求。为实现操作序列化,Clawd 采用了基于任务通道的命令队列:每个会话对应专属的任务通道,低风险、可并行的任务(如定时任务)则可在多个通道中并行执行。 这与编写混乱的异步/等待(async/await)嵌套代码形成了鲜明对比——过度并行化会降低系统可靠性,还会引发大量难以调试的问题。

Clawd 的设计原则为:默认串行执行,显式声明并行。

从事智能体开发的开发者想必对此深有体会,这也是 Cognition 公司在博文中传递的核心观点。为单个智能体搭建简单的异步架构,最终只会产生杂乱无章的交错代码,日志无法阅读;若多个智能体共享状态,开发过程中还需时刻警惕竞态条件问题。

而任务通道是对队列的一层抽象,将序列化作为默认架构设计,而非后续的补充优化。开发者只需编写业务代码,队列会自动处理竞态条件问题,开发思路也将从“需要为哪些内容加锁”转变为“哪些操作可以安全地并行执行”。

3.智能体运行器

这是真正承载 AI 能力的模块。该模块会确定待调用的模型、匹配对应的 API 密钥(若密钥失效,会将该配置标记为冷却状态并尝试下一个),若主模型调用失败,会自动切换至备用模型。 智能体运行器会结合可用工具、技能、记忆内容动态生成系统提示词,再加入会话历史(存储于.jsonl 文件),随后将完整提示词传入上下文窗口防护机制,校验是否有足够的上下文空间。若上下文空间即将耗尽,系统会选择压缩会话内容(对上下文进行总结)或优雅降级终止执行。

4.大语言模型 API 调用

大模型调用环节会以流式方式返回结果,同时对不同服务商的 API 做了一层抽象封装;若所调用的模型支持深度思考功能,该模块还会触发模型的扩展思考逻辑。

5.智能体循环

若大模型返回工具调用指令,Clawd 会在本地执行该指令,并将执行结果补充至对话中。这一过程会反复执行,直至大模型返回最终文本结果,或达到最大循环次数(默认约 20 次)。 正是在这一环节,Clawd 实现了其核心能力——电脑操作功能。

6.反馈通路

这一环节的逻辑较为常规:执行结果会通过原消息通道反馈给用户,同时会话数据会以基础的 jsonl 格式持久化存储,文件中每行都是一个 json 对象,记录了用户消息、工具调用指令、执行结果、模型反馈等内容,这也是 Clawd 的记忆实现方式——基于会话的记忆机制。

以上就是 Clawd 的基础架构,接下来我们聊聊其中几个关键的核心模块。

Clawd 的记忆机制

没有完善的记忆系统,AI 助手的能力便会大打折扣。Clawd 通过两套系统实现记忆功能:

1、前文提到的、以 jsonl 格式存储的会话记录; 2、存储为 Markdown 格式的记忆文件,文件位于 MEMORY.md 或 memory/文件夹中。

在检索环节,Clawd 采用了向量检索与关键词匹配相结合的混合检索方式,兼具两种方式的优势。例如检索“认证漏洞(authentication bug)”时,系统既能找到提及“认证问题(auth issues)”的文档(语义匹配),也能精准定位包含该精确短语的内容(关键词匹配)。

其中,向量检索基于 SQLite 实现,关键词检索则借助 SQLite 的扩展模块 FTS5 完成,嵌入向量生成服务商支持自定义配置 该系统还搭载了智能同步功能,当文件监视器检测到文件变化时,会自动触发同步。这些 Markdown 记忆文件由智能体通过常规的“写入”文件工具生成,无专属的记忆写入 API,智能体只需向 memory/*.md 路径写入内容即可。

当新的对话开始时,系统会提取上一轮的对话内容,并将其总结为 Markdown 格式的文件。

Clawd 的记忆系统设计出乎意料地简洁,与我们在[项目名称]中实现的工作流记忆机制高度相似:无需合并记忆文件,也无需按每月/每周的周期压缩记忆内容。这种简洁性是优势还是缺陷,因人而异,但我始终推崇可解释的简洁设计,而非混乱复杂的架构。

Clawd 的记忆会永久保存,且新老记忆的权重基本一致,不存在记忆衰减曲线。

Clawd 的核心能力:电脑操作实现

这是 Clawd 的核心壁垒之一:可接管本地电脑并实现各类操作。其实现逻辑与大家的直观认知基本一致。

Clawd 会向智能体开放较高权限的电脑操作能力,相关风险由用户自行承担。它通过执行工具(exec tool)在设备上运行 Shell 命令,支持三种运行环境:

  • 沙箱环境(默认):命令在 Docker 容器中运行;
  • 本地宿主机;
  • 远程设备。

除此之外,Clawd 还配备了各类工具:

文件系统工具(支持读取、写入、编辑); 基于 Playwright 实现的浏览器工具,可生成语义快照; 进程管理工具,用于执行后台长期运行的命令、终止进程等。

安全机制(或近乎缺失?)

与 Claude Code 类似,Clawd 为用户设置了命令白名单,用户可对各类命令进行权限审批,支持三种操作:单次允许、始终允许、拒绝,并会向用户弹出审批提示。

代码块示例:命令审批配置文件

{
"agents": {
"main": {
"allowlist": [
{"pattern": "/usr/bin/npm", "lastUsedAt": 1706644800},
{"pattern": "/opt/homebrew/bin/git", "lastUsedAt": 1706644900}
]
}
}
}

部分安全命令(如 jq、grep、cut、sort、uniq、head、tail、tr、wc)已默认预批准。默认情况下,危险的 Shell 语法结构会被拦截。 代码块示例:被拦截的危险命令

以下命令在执行前会被拒绝:

cat file > /etc/hosts # 重定向
rm -rf / || echo "failed" # 逻辑或链接
(sudo rm -rf /)           # 子 shell`

Clawd 的安全机制与 Claude Code 的设计思路高度相似,核心是在用户允许的范围内,给予智能体最大的自主操作权限。

浏览器工具:语义快照而非截图

Clawd 的浏览器工具并非主要依赖截图,而是采用语义快照——一种基于页面无障碍树(ARIA)的文本化表示形式。

所以Agent将看到:

- textbox "Email" [ref=2]
- textbox "Password" [ref=3]
- link "Forgot password?" [ref=4]
- heading "Welcome back"
- list
  - listitem "Dashboard"
  - listitem "Settings" 

这透露了四个显著优势。正如你可能已经猜到的,浏览网站并不一定是视觉上的任务。

截图大小为5 MB,语义快照则少于50 KB,且仅占图像代币成本的一小部分。

好了,既然我们已经介绍了主要组成部分,以下是一些有趣的细节:

动态系统提示词

与大多数框架不同,Clawd 的系统提示词并非固定不变,而是结合技能、记忆检索结果、用户身份、时区等信息动态构建。其基础系统提示词如下:


## 工具集
可用工具(按策略筛选):工具名称区分大小写,需严格按列出的名称调用。
- read:读取文件内容 
- exec:运行 Shell 命令 
- browser:控制网页浏览器
[...仅显示该智能体可访问的工具]

## 工具调用风格
默认规则:常规、低风险的工具调用无需说明(直接调用即可);
仅在以下场景需补充说明:多步骤操作、复杂问题、敏感操作。

## Moltbot 命令行快速参考
[网关命令参考内容]

## 工作目录
你的工作目录为:/path/to/workspace
将该目录视为唯一的全局工作空间...

##运行时信息
运行环境:智能体=主智能体 | 主机=MacBook | 操作系统=Darwin(arm64架构) | 模型=claude-sonnet-420250514 | 通道=电报 | 思考模式=关闭
推理过程:关闭(仅在开启/流式模式下显示)

子智能体/智能体生成

智能体可以生成子智能体(但子智能体无法再生成下一级智能体)。子智能体拥有独立会话,父子智能体通过 session_send 实现通信,子智能体的执行结果会反馈给父智能体,父智能体可通过轮询子智能体会话查看执行进度。

上下文压缩

当接近上下文长度限制时,智能体会将关键信息保存至记忆中。会话历史会被拆分为多个片段,由大语言模型对片段进行总结,最终合并为连贯的摘要,替换原始消息内容。

总结

OpenClaw 的走红并非偶然——它兼具易用性与实用性。但从技术角度来看,它并非“革命性”突破。这款工具的热度并非源于惊人的创新技术,但这绝不意味着要贬低它的价值。Clawd 中蕴含着许多值得学习的设计思路,我发现其中不少方法与[相关技术/框架]高度相似。

Openclaw 生态

openclaw 火爆以后,其生态快速迎来了大爆发。AI agents 正在形成完整的数字社会,覆盖社交、恋爱、工作、游戏等等一应俱全。下面是 Base 中文台整理的目前的 OpenClaw 生态的主要项目。按照当前的进展速度,预测这个生态图将在 1 个月后迎来更多的项目与产品。

HAARNvab0AAQtsC.jpg

这张图呈现了 OpenClaw 在 Base 区块链上的智能体生态系统布局,核心是围绕 OpenClaw 的本地优先 AI 智能体能力,延伸出覆盖多生活/工作场景的第三方应用与平台,整体按场景分类呈现,直观展现了 OpenClaw 生态的多样性与落地范围。

图片按应用场景分为 10 大板块,每个板块对应聚焦特定需求的生态项目,本质是 OpenClaw 智能体能力在不同场景的延伸落地:

基础设施:生态底层支撑类项目,如 Bankr、XMTP、Clanker、Neynar 等,为其他场景应用提供技术接口、数据传输、身份验证等基础服务,是生态运转的核心支撑;

恋爱交友:聚焦社交匹配需求,暂无具体项目列出,推测是预留的情感社交类智能体应用场景;

消息:通讯类相关应用,如 moltline.com、claw.direct 等,大概率是基于 OpenClaw 跨通道通讯能力开发的即时通讯工具或消息路由服务;

发现:资源探索类平台,如 clawdr.co、shelimates.app 等,可能是用于发现 AI 智能体技能、生态应用或兴趣内容的聚合平台;

论坛:社区交流类项目,如 lobchan.ai、moltoverflo.com 等,面向 OpenClaw 开发者和用户的讨论社区,用于分享应用经验、反馈问题;

工作与市场:职场与交易相关应用,如 openwork.bot、clawnet.org 等,可能是基于 AI 智能体的协同办公工具、自由职业者对接平台或技能交易市场;

预测市场:聚焦趋势预测类需求,暂无具体项目,推测是结合 OpenClaw 数据分析能力的事件预测、市场趋势判断类应用;

社交媒体:社交内容类平台,如 moltbook.bot、instaclaw.xyz 等,类似 AI 驱动的社交网络,支持智能体辅助内容创作、社交互动;

代币经济:加密货币相关应用,如 moltx.io、clawk.ai 等,可能是基于 Base 链的代币管理、DeFi 交互类智能体工具;

游戏虚拟世界:娱乐场景应用,如 molt.chess、shell-town.com/viewer 等,结合 AI 智能体的游戏辅助、虚拟世界互动类工具。

附:OpenClaw 相关资源

官网与工具

OpenClaw 官网:openclaw.ai/

OpenClaw Github 仓库:github.com/openclaw/op…

OpenClaw 技能合集:github.com/VoltAgent/a…

OpenClaw 一键部署工具:github.com/miaoxworld/…

OpenClaw 汉化版:github.com/1186258278/…

OpenClaw 钉钉插件:github.com/DingTalk-Re…

OpenClaw 飞书独立桥接器:github.com/AlexAnys/fe…

部署教程与资源

阿里云:快速部署 OpenClaw www.aliyun.com/benefit/sce…

腾讯云:在云端秒级部署 OpenClaw 全能助手 cloud.tencent.com/act/pro/lig…

华为云:使用 OpenClaw(Moltbot)搭建个人 AI 助手(飞书) support.huaweicloud.com/bestpractic…

火山引擎:一键部署 OpenClaw www.volcengine.com/activity/cl…

百度云:极简部署 OpenClaw 打造专属 AI 助手 cloud.baidu.com/product/BCC…

移动云:本地/云主机部署 OpenClaw 并接入移动云模型 ecloud.10086.cn/op-help-cen…

天翼云:天翼云 ×OpenClaw 行动 AI 新生态 www.ctyun.cn/act/OpenCla…

京东云:即刻部署 24 小时在线的 Moltbot www.jdcloud.com/cn/pages/mo…

青云:Clawdbot 一键部署零门槛掌控 AI 超级助手 console.qingcloud.com/apps/app-3b…

亚马逊 AWS:基于亚马逊云科技 Mac 实例部署 OpenClaw,深度苹果生态自动化的最佳选择 aws.amazon.com/cn/blogs/ch…

Ollama 官方 OpenClaw 本地部署教程 docs.ollama.com/integration…

参考资料: everyone talks about Clawdbot, but here's how it works:x.com/Hesamation/…

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与AI Agent,欢迎关注与交流。】