Clawdbot 是啥东西,咋能这么火呢

63 阅读8分钟

cover

👀 最新、最有用的AI编程姿势,总来自「知识药丸」

《贾杰的AI编程秘籍》付费合集,共10篇,现已完结。30元交个朋友,学不到真东西找我退钱;)

以及我的墨问合集《100个思维碎片》,1块钱100篇,与你探讨一些有意思的话题(文末有订阅方式


最近国内国外,开发者圈都在疯传一个叫 Clawdbot 的项目。

有人说它让 Mac mini 一夜卖断货,更有开发者直呼"这就是 Jarvis"。

我一开始也是抱着怀疑的态度。又一个 AI 助手项目,能有啥不一样?

但仔细读完它的开源代码后,我发现自己错了。

Clawdbot 不是又一个"套壳 ChatGPT",它在产品设计和工程实现上的思路,完全不同

这篇笔记,我想把里面最精华的部分提炼出来。

Clawdbot 是个啥

先搞清楚它是什么。

Clawdbot 跑在你自己设备上,能在你天天用的聊天工具上回复你——WhatsApp、Telegram、Slack、Discord、iMessage。

注意,不是让你装个新 App,而是直接接入你已有的渠道

更厉害的是,它还支持 macOS/iOS/Android 节点能力。你的手机、电脑都能变成它的"手脚",调用摄像头、录屏、执行命令。

但这些只是表面。

Clawdbot 真正的核心是它的架构设计——Gateway 控制平面

Gateway:一个大脑,多个入口

这是我读完源码后最大的收获。

传统 AI 助手是"一个聊天 UI + 一个模型调用"。你打开 App,输入问题,得到回复。

Clawdbot 不是这么玩的。

它把自己设计成了一个控制平面(Control Plane)。如果你熟悉 Kubernetes,你会秒懂——控制平面不处理实时流量,它是背后的大脑。

在 Clawdbot 里,Gateway 就是这个大脑:

统一管理所有聊天渠道、所有 Agent 会话、所有工具能力、所有客户端。

而 CLI、Web、macOS App 这些东西,只是不同的"入口"。它们通过 WebSocket 连到同一个 Gateway。

你在 WhatsApp 上发的消息,和你在 CLI 里输的命令,走的是同一套系统。

这个设计的好处?一致性和可扩展性

用户只要理解"Gateway 是中枢"就行了。新增一个渠道,只需挂到 Gateway 上,不会破坏核心体验。

默认安全:配对机制的精妙之处

把 AI 助手接入 WhatsApp、Telegram,最大的风险是啥?陌生人、群聊、钓鱼内容

想象一下,你的助手能执行命令、访问文件,这时候有个陌生人在群里 @它说"删除所有文件"。

会发生什么?

Clawdbot 的做法很聪明:默认 DM 配对(Pairing)。

陌生人第一次发消息,它不处理,而是生成一个 8 位配对码(去掉了易混字符,像 ABC12345)。

只有输入配对码,这个人才能进白名单。

而且配对码有 TTL,pending request 有数量上限。存储文件做了权限控制和原子替换。

这种"安全默认 + 体验可用"的组合,是真实渠道产品的关键。

没有这层保护,用户根本不敢把助手接入真实账号。

Onboarding Wizard:把复杂变简单

Clawdbot 的配置其实挺复杂——选模型、配渠道、设权限、装插件……

如果直接给用户一堆配置文件,90% 的人会放弃。

所以它做了向导式 onboarding(clawdbot onboard)。

这个向导不是简单的"问答填空",而是真正理解使用场景:

探测系统环境、提供 QuickStart/Manual 两条路径、对远程网关做限制、配置不合法时给修复建议、还会做风险告知。

核心思想:把一次性复杂配置变成可完成的流程

用户不需要一次性理解所有概念,跟着向导走就能把系统跑起来。

多代理路由:隔离是最好的安全

Clawdbot 支持 multi-agent routing。

啥意思?就是同一个 Gateway 下,跑多个不同的 agent,每个有自己的 workspace、skills、权限、模型。

然后按 channel/account/peer/guild 等维度,把不同消息路由到不同 agent。

工作群的消息路由到"工作 agent",它有文件和命令权限;家人群的消息路由到"生活 agent",它只能回答问题。

这样即便同一个 Gateway,上下文污染、群聊噪声、权限风险也能隔离开。

核心思想:不要把所有能力塞进一个 agent

按场景拆分,才是可控的。

插件系统:契约比代码重要

Clawdbot 把"渠道插件"模块化了。

一个 ChannelPlugin 被拆成一堆 adapter:config、setup、pairing、security、groups、outbound、status、auth、streaming、messaging……

这么拆的好处?让渠道扩展成为实现契约,而不是到处 if/else

核心团队把长尾渠道(Matrix、BlueBubbles)放到 extensions 目录,作为独立 package。

用户需要哪个装哪个。插件只需 export default plugin 并调用 api.registerChannel(),就能挂进 Gateway。

核心保持轻量,生态持续增长。

工程细节:为长跑而设计

Clawdbot 的代码里有大量"为长期运维设计"的细节。

比如 Agent 事件流处理:

节流——150ms 内不重复发送 delta,减少网络压力。

序列校验——维护 seq 序列号,检测断序时广播 error。

多端同步——同时广播给 Gateway clients 和 node session。

再比如媒体管线:

SSRF 防护——防止恶意 URL 攻击内网。

大小限制——URL 下载限 5MB。

TTL 清理——2 分钟清理旧文件。

mime sniffing——抓前 16KB 做类型识别,不信任 Content-Type。

还有外部内容安全包裹。有个 wrapExternalContent() 函数,专门为邮件、webhook 等不可信内容增加边界和安全提示,检测提示注入。

这些细节看似不起眼,但正是它们,让 Clawdbot 能在真实环境长期稳定运行。

CLI 快速路由:秒开的秘密

Clawdbot 的 CLI 命令很多——gatewayagentchannelssessionsstatushealth……

如果每次都全量注册、加载插件、初始化依赖,启动会很慢。

所以它在 Commander parse 前,先调 tryRouteCli(),对常用命令做"快速路径"解析和执行。

常用命令几乎秒开,同时保留完整 help 和错误输出。

这个优化体现对真实场景的理解——用户会频繁执行某些命令,启动速度直接影响体验。

配置热重载:服务要能活下来

Gateway 启动时做的事:

配置迁移、插件自动启用、运行时 state 统一创建、维护任务、配置热重载

重点是最后这个。

监听配置文件变化,区分 hot reload(无需重启)和需要 restart 的变更。

为什么?因为 AI 助手要 7x24 小时跑后台,配置随时可能调整。

如果每次改配置都要重启,体验会很糟。

所以把配置变更分两类:能热重载就热重载,必须重启才重启。

这是为长跑服务设计,而不是为短生命周期脚本设计

对其他 PC 端产品的启发

读完源码,我总结了几点:

第一,把"本地常驻 + 多入口"当成一等需求

不要把 PC 端只当"聊天窗口",而要做成"用户自己的 agent runtime"。

CLI、Web、桌面 App、移动端,围绕同一个控制面协同。

第二,"安全默认"必须产品化

一旦 AI 助手有文件/命令/浏览器能力,安全默认比"功能更多"更决定口碑。

配对、白名单、沙盒、权限映射、防注入,不能只是文档建议,要写进代码。

第三,可诊断能力决定"能不能长期用"

面向真实用户的 PC 端 AI,必须内置自诊断。

Clawdbot 提供 statushealthusage-costdiscover,还有 update check、hot reload、maintenance timers。

没有这些,连接多渠道/设备/网络后,产品就会变成不可用的黑盒。

第四,插件化要有强契约与强工具

生态不是"开放插件加载器"就结束。

要提供 SDK、元数据规范、可观测能力。

Clawdbot 的 ChannelPlugin adapter + plugin-sdk + 扩展元数据,把扩展成本从"改核心"变成"实现接口"。

总结

Clawdbot 的火爆不是偶然。

它在产品层面,把"个人 AI 助手"从"聊天 UI"升级成"可编排系统"。

在工程层面,把无数"长期运维"的细节打磨到位。

在生态层面,用强契约和强工具让扩展成为可能。

有人说它是"24/7 的 Jarvis",有人说它会"干掉一大批 SaaS 创业公司"。

我不知道这些预言会不会成真。

但我知道,它给 PC 端 AI 产品树立了一个新标杆——把复杂能力做成稳定中枢,把安全默认产品化,把可运维能力内置进去,把生态扩展做成强契约

这些思路,值得每个做 AI 产品的团队深思。

参考资料


 坚持创作不易,求个一键三连,谢谢你~❤️

以及「AI Coding技术交流群」,联系 ayqywx 我拉你进群,共同交流学习~