想要长期陪伴你的助理?先从部署一个 OpenClaw 开始 😍😍😍

1 阅读10分钟

我正在开发 DocFlow,它是一个完整的 AI 全栈协同文档平台。该项目融合了多个技术栈,包括基于 Tiptap 的富文本编辑器、NestJs 后端服务、AI 集成功能和实时协作。在开发过程中,我积累了丰富的实战经验,涵盖了 Tiptap 的深度定制、性能优化和协作功能的实现等核心难点。

如果你对 AI 全栈开发、Tiptap 富文本编辑器定制或 DocFlow 项目的完整技术方案感兴趣,欢迎加我微信 yunmz777 进行私聊咨询,获取详细的技术分享和最佳实践。 很多人第一次打开 OpenClaw,会下意识把它当成"接在微信或 Slack 上的聊天机器人"。这种理解只对了一半。从架构上看,OpenClaw 更像一个网关:它站在你和一堆能力之间,负责路由、鉴权、记忆和工具调用。真正决定你能做多少事的,不是对话框有多好看,而是背后接了多少"身体"——也就是 Skills。

2025 年很多人说是 vibe coding 的元年,用自然语言描述需求、让 AI 帮你写代码和改代码,从极客玩具变成了日常开发方式。到了 2026 年,一个更直白的问题浮出水面:是不是人人都会有一个自己的 Agent?不再只是"问一问答一答"的聊天窗口,而是一个真的能替你操作电脑、完成任务、且完全听你指挥的智能体。OpenClaw 就是这条路上一个绕不开的名字,它把「大模型 + 电脑」做成开源框架,让任何人都有机会在自家机器上部署一个通用 Agent。这篇文章先说清 Chatbot 和 Agent 到底差在哪,再介绍通用 Agent 是什么,最后落在 OpenClaw 的定位、优劣和可能走向。

豆包、元宝、千问这类产品大家都很熟悉,它们背后是「大语言模型」,能帮你分析、推导问题,最后给出一段文字答案。但在执行层面,始终需要人类参与。比如你可以问豆包"回老家最近的高铁车次是哪趟",具体的付款、买票依然要你自己登录 12306 完成。这类我们习惯称之为 Chatbot。

AI Agent 和 Chatbot 的差别在于,前者是「大语言模型 + 工具」的结合体。模型负责出思路,工具负责落地,最终交付的是用户要的"成品",而不只是一段话。程序员常用的 CursorCodeBuddy 就是典型:大模型给编程思路,编辑器当工具写代码,还能调浏览器做测试、发布。春节期间"让千问帮你点奶茶"、更早的豆包手机,都是传统 Chatbot 往 Agent 方向升级的信号。

20260303091822

上图从左到右概括了 Chatbot 与 Agent 的差别。Chatbot 只产出文字答案,执行仍要你自己动手。Agent 则多了"工具"这一环,能直接操作电脑或外部服务,把"成品"交到你手上。

那有没有一种 Agent,能干的事情特别多、甚至接近"什么都行"?有,这类产品叫「通用 Agent」。它的核心工具是一台完整的电脑,能用电脑上的一切软硬件来完成你的需求,相当于你请了专人,用你的电脑帮你办事。交付物自然也只能是电脑能生产的东西,你不能跟它说"给我一百万",但凡是电脑能做的,它理论上都能参与。比如你可以说:"找一下回老家最近的高铁车次,有票就帮我买,没票就对比交通工具的时间和开销,做成报告发我邮箱。" 通用 Agent 里比较出名的是去年年底被 Meta 收购的 Manus

20260303091927

图中概括了通用 Agent 的工作方式:用户用自然语言下指令,大模型理解并拆解成步骤,把"电脑"当作统一工具,调用上面的软件和网络完成操作,最后把电脑能产出的结果(订单、报告、邮件等)交回给你。

OpenClawManus 在技术本质上是一致的,都是大语言模型配合电脑作为工具的通用 Agent。区别在于:Manus 的模型和电脑由服务方提供,你按月付费使用。OpenClaw 则由开发者自己找电脑或云服务器部署,代码开源。很多人因此把 OpenClaw 当成 Manus 的平替,一上来就丢语义不清的长任务,比如"每天用 rss 拉取最新资讯做成简报",结果抱怨效果差、费钱、费 Token。问题不在技术路线,而在预期,开源带来的两面性下面会细说。

开源为什么看起来"能力弱"

OpenClaw 最初是创始人 Peter Steinberger 用来连接 WhatsApp 和本地 Claude 的工具,方便在 WhatsApp 里给 Claude 下编程指令,所以早期叫 Clawbot(Claw 和 Claude 同音),即"Claude 机器人"。后来这套「大模型控制电脑」的 Agent 框架被正式开源,并定名 OpenClaw

开源的特性决定了它的两面性。一方面,谁都可以改代码,运行逻辑可以高度定制。另一方面,内置逻辑相对"单薄"。早期版本的上下文切换、记忆能力都偏简单,自带的工具也只有读写文件、执行命令等基础操作。而 Manus 在工具层面就覆盖了 Office、图表、浏览器交互等一整套打工人常用能力,去年内测时已经在做"上下文溢出后的无缝切换"。所以如果你追求开箱即用、不想折腾,更适合每月花 199 美元订阅 Manus。如果你愿意花时间教 OpenClaw 更多技能,它可以变成你专属的、完全自主可控的智能助理。

20260303092032

上图左边是开源带来的"看起来能力弱":内置工具少、逻辑薄,和商业版 Manus 一对比尤其明显。右边是开源带来的真正价值:可定制、数据在自己手里、还有社区一起迭代。

开源的优势:自主可控

OpenClaw 的核心价值,恰恰来自开源。

你可以按自己的需求扩展:想用什么模型就用什么模型,觉得文件存记忆不够就自己接向量数据库,觉得太费 Token 就给它设定分步执行、克制的规则。代码完全透明,不用担心偷偷收集数据或乱传数据,所有上下文和敏感信息都留在你自己的设备上。Sam Altman 也提过,OpenAI 不做这类产品,核心原因之一就是隐私。个人建议不要开外网端口,牺牲一点便利,能明显提高安全性。

开源也带来了社区。OpenClawGitHub 上星标接近 20 万,有全球开发者一起修能力、扩展性和安全问题。从今年 1 月初定名 OpenClaw 到现在,已经发布了 41 个版本,基本一两天就有一次更新,社区还有日常直播,方便交流使用和开发心得。只要你愿意投入时间调教,它可以成为只属于你的"白金之星"。即便你目前只有"紫色隐者"级别的需求,它也能做一个完全不依赖外界、完全在你掌控下的本地助理。

两个方向上的预测

第一,OpenClaw 的未来会往本地化部署走。很多人聊安全时会说"要么独立电脑,要么云服务器"。现阶段云上部署性价比高,能力和本地差不太多,但可玩性差很多。比如你没法让云上的 OpenClaw 帮你放音乐,而本地部署可以(有人就教会了 OpenClaw 用 QQ 音乐)。本地电脑能接各种硬件,摄像头当"眼睛",音响当"声带",甚至接机械臂让它动起来。当大模型能操控更多实体硬件时,Agent 的想象空间会大很多。

这里顺带避个坑:最近有些"包装 OpenClaw 的云端产品"打着"无需买服务器和算力、开箱即用"的旗号收月费。这类内容多数可以当作软文看待。真想低成本体验,可以在阿里、腾讯、华为等云厂商买一台内存型服务器、部署 OpenClaw 镜像,最便宜每小时几毛钱,模型用 MinimaxKimi 或千问的免费额度就够试用了,不用了释放即可。不熟悉技术的可以问豆包要具体操作步骤,并不复杂。

第二,算力也会逐渐本地化。不仅是运行环境,大模型本身也会更多地在本地跑。当前"模型在云端"的方案下,理论上模型方是有办法接触到你的数据的。随着模型变小、消费级硬件变强,大模型完全可以在本地完成推理,到时候断网只要通电,OpenClaw 也能正常用。有人会说本地模型能力不如云端,可以换个角度想:你请的是私人助理,他不需要上知天文下知地理,只要能理解常识、能帮你对接专业能力就行。电视坏了,他帮你联系工程师(比如 Claude)。身体不舒服,他帮你问医生(比如蚂蚁阿福)。更重要的是,和这个"助理"的所有对话都只存在本地硬盘上,你可以聊任何隐私话题,他也能持续、不中断地辅助你,这才是真正意义上的私人助理。

20260303092919

图中上排是部署本地化:云端 Agent 受限于不能碰你本地的硬件,本地部署则可以接摄像头、音响、机械臂,可玩性高很多。下排是算力本地化:从"模型在云端"走向"模型在本地",断网可用,对话只留在自己硬盘上,更像真正的私人助理。

人人都有一个 Agent?2026 年的两条路

所以回到开头那个问题,现在是不是人人都会有一个自己的 Agent?从趋势上看,是的,但"有一个"的方式会分化。2025 年 vibe coding 把"用自然语言写代码"普及了,2026 年大家要的是"用自然语言让 AI 替自己干活"。这条路上有两条很清晰的路径。一条是付费订阅商业通用 Agent,比如 Manus,模型和电脑都由服务方提供,开箱即用,适合不想折腾的人。另一条就是自己部署开源框架,比如 OpenClaw,机器和模型自己选,代码自己控,数据不出本机,适合愿意花时间调教、把 Agent 当成长期资产的人。两条路技术本质相同,都是「大模型 + 电脑」的通用 Agent,差别只在于你要的是省心,还是主权。人人都有一个 Agent,可能指的是人人都有一个"能用"的窗口,但那个窗口是别人家的云端,还是你家电脑上的开源实例,选择权在你。

结语

通用机器人可以承担营救、探索等高危场景,比如去鳌太线执行救援。但私人助理这个场景,无论是 OpenClaw 还是以后出现的其他形态,更可能的方向都是开源且本地化,不被单一厂商垄断,完全由用户自己掌控。2025 年 vibe coding 让"人人都会用 AI 写代码"往前迈了一大步,2026 年"人人都有一个 Agent"不再是一句口号,而是两条可选的路径。OpenClaw 的价值不在于替代 Manus,而在于给愿意折腾的人一条路,用开源和本地换来自主可控和隐私,再通过社区和迭代,把能力一点点打磨成适合自己的样子。选哪条路,取决于你更在意省心,还是更在意主权。