想要长期陪伴你的助理？先从部署一个 OpenClaw 开始 😍😍😍如果你对 AI 全栈开发、Tiptap 富文本编

我正在开发 DocFlow，它是一个完整的 AI 全栈协同文档平台。该项目融合了多个技术栈，包括基于 Tiptap 的富文本编辑器、NestJs 后端服务、AI 集成功能和实时协作。在开发过程中，我积累了丰富的实战经验，涵盖了 Tiptap 的深度定制、性能优化和协作功能的实现等核心难点。

如果你对 AI 全栈开发、Tiptap 富文本编辑器定制或 DocFlow 项目的完整技术方案感兴趣，欢迎加我微信 yunmz777 进行私聊咨询，获取详细的技术分享和最佳实践。很多人第一次打开 OpenClaw，会下意识把它当成"接在微信或 Slack 上的聊天机器人"。这种理解只对了一半。从架构上看，OpenClaw 更像一个网关：它站在你和一堆能力之间，负责路由、鉴权、记忆和工具调用。真正决定你能做多少事的，不是对话框有多好看，而是背后接了多少"身体"——也就是 Skills。

2025 年很多人说是 vibe coding 的元年，用自然语言描述需求、让 AI 帮你写代码和改代码，从极客玩具变成了日常开发方式。到了 2026 年，一个更直白的问题浮出水面：是不是人人都会有一个自己的 Agent？不再只是"问一问答一答"的聊天窗口，而是一个真的能替你操作电脑、完成任务、且完全听你指挥的智能体。OpenClaw 就是这条路上一个绕不开的名字，它把「大模型 + 电脑」做成开源框架，让任何人都有机会在自家机器上部署一个通用 Agent。这篇文章先说清 Chatbot 和 Agent 到底差在哪，再介绍通用 Agent 是什么，最后落在 OpenClaw 的定位、优劣和可能走向。

豆包、元宝、千问这类产品大家都很熟悉，它们背后是「大语言模型」，能帮你分析、推导问题，最后给出一段文字答案。但在执行层面，始终需要人类参与。比如你可以问豆包"回老家最近的高铁车次是哪趟"，具体的付款、买票依然要你自己登录 12306 完成。这类我们习惯称之为 Chatbot。

AI Agent 和 Chatbot 的差别在于，前者是「大语言模型 + 工具」的结合体。模型负责出思路，工具负责落地，最终交付的是用户要的"成品"，而不只是一段话。程序员常用的 Cursor、CodeBuddy 就是典型：大模型给编程思路，编辑器当工具写代码，还能调浏览器做测试、发布。春节期间"让千问帮你点奶茶"、更早的豆包手机，都是传统 Chatbot 往 Agent 方向升级的信号。

20260303091822

上图从左到右概括了 Chatbot 与 Agent 的差别。Chatbot 只产出文字答案，执行仍要你自己动手。Agent 则多了"工具"这一环，能直接操作电脑或外部服务，把"成品"交到你手上。

那有没有一种 Agent，能干的事情特别多、甚至接近"什么都行"？有，这类产品叫「通用 Agent」。它的核心工具是一台完整的电脑，能用电脑上的一切软硬件来完成你的需求，相当于你请了专人，用你的电脑帮你办事。交付物自然也只能是电脑能生产的东西，你不能跟它说"给我一百万"，但凡是电脑能做的，它理论上都能参与。比如你可以说："找一下回老家最近的高铁车次，有票就帮我买，没票就对比交通工具的时间和开销，做成报告发我邮箱。" 通用 Agent 里比较出名的是去年年底被 Meta 收购的 Manus。

20260303091927

图中概括了通用 Agent 的工作方式：用户用自然语言下指令，大模型理解并拆解成步骤，把"电脑"当作统一工具，调用上面的软件和网络完成操作，最后把电脑能产出的结果（订单、报告、邮件等）交回给你。

OpenClaw 和 Manus 在技术本质上是一致的，都是大语言模型配合电脑作为工具的通用 Agent。区别在于：Manus 的模型和电脑由服务方提供，你按月付费使用。OpenClaw 则由开发者自己找电脑或云服务器部署，代码开源。很多人因此把 OpenClaw 当成 Manus 的平替，一上来就丢语义不清的长任务，比如"每天用 rss 拉取最新资讯做成简报"，结果抱怨效果差、费钱、费 Token。问题不在技术路线，而在预期，开源带来的两面性下面会细说。

开源为什么看起来"能力弱"

OpenClaw 最初是创始人 Peter Steinberger 用来连接 WhatsApp 和本地 Claude 的工具，方便在 WhatsApp 里给 Claude 下编程指令，所以早期叫 Clawbot（Claw 和 Claude 同音），即"Claude 机器人"。后来这套「大模型控制电脑」的 Agent 框架被正式开源，并定名 OpenClaw。

开源的特性决定了它的两面性。一方面，谁都可以改代码，运行逻辑可以高度定制。另一方面，内置逻辑相对"单薄"。早期版本的上下文切换、记忆能力都偏简单，自带的工具也只有读写文件、执行命令等基础操作。而 Manus 在工具层面就覆盖了 Office、图表、浏览器交互等一整套打工人常用能力，去年内测时已经在做"上下文溢出后的无缝切换"。所以如果你追求开箱即用、不想折腾，更适合每月花 199 美元订阅 Manus。如果你愿意花时间教 OpenClaw 更多技能，它可以变成你专属的、完全自主可控的智能助理。

20260303092032

上图左边是开源带来的"看起来能力弱"：内置工具少、逻辑薄，和商业版 Manus 一对比尤其明显。右边是开源带来的真正价值：可定制、数据在自己手里、还有社区一起迭代。

开源的优势：自主可控

OpenClaw 的核心价值，恰恰来自开源。

你可以按自己的需求扩展：想用什么模型就用什么模型，觉得文件存记忆不够就自己接向量数据库，觉得太费 Token 就给它设定分步执行、克制的规则。代码完全透明，不用担心偷偷收集数据或乱传数据，所有上下文和敏感信息都留在你自己的设备上。Sam Altman 也提过，OpenAI 不做这类产品，核心原因之一就是隐私。个人建议不要开外网端口，牺牲一点便利，能明显提高安全性。

开源也带来了社区。OpenClaw 在 GitHub 上星标接近 20 万，有全球开发者一起修能力、扩展性和安全问题。从今年 1 月初定名 OpenClaw 到现在，已经发布了 41 个版本，基本一两天就有一次更新，社区还有日常直播，方便交流使用和开发心得。只要你愿意投入时间调教，它可以成为只属于你的"白金之星"。即便你目前只有"紫色隐者"级别的需求，它也能做一个完全不依赖外界、完全在你掌控下的本地助理。

两个方向上的预测

第一，OpenClaw 的未来会往本地化部署走。很多人聊安全时会说"要么独立电脑，要么云服务器"。现阶段云上部署性价比高，能力和本地差不太多，但可玩性差很多。比如你没法让云上的 OpenClaw 帮你放音乐，而本地部署可以（有人就教会了 OpenClaw 用 QQ 音乐）。本地电脑能接各种硬件，摄像头当"眼睛"，音响当"声带"，甚至接机械臂让它动起来。当大模型能操控更多实体硬件时，Agent 的想象空间会大很多。

这里顺带避个坑：最近有些"包装 OpenClaw 的云端产品"打着"无需买服务器和算力、开箱即用"的旗号收月费。这类内容多数可以当作软文看待。真想低成本体验，可以在阿里、腾讯、华为等云厂商买一台内存型服务器、部署 OpenClaw 镜像，最便宜每小时几毛钱，模型用 Minimax、Kimi 或千问的免费额度就够试用了，不用了释放即可。不熟悉技术的可以问豆包要具体操作步骤，并不复杂。

第二，算力也会逐渐本地化。不仅是运行环境，大模型本身也会更多地在本地跑。当前"模型在云端"的方案下，理论上模型方是有办法接触到你的数据的。随着模型变小、消费级硬件变强，大模型完全可以在本地完成推理，到时候断网只要通电，OpenClaw 也能正常用。有人会说本地模型能力不如云端，可以换个角度想：你请的是私人助理，他不需要上知天文下知地理，只要能理解常识、能帮你对接专业能力就行。电视坏了，他帮你联系工程师（比如 Claude）。身体不舒服，他帮你问医生（比如蚂蚁阿福）。更重要的是，和这个"助理"的所有对话都只存在本地硬盘上，你可以聊任何隐私话题，他也能持续、不中断地辅助你，这才是真正意义上的私人助理。

20260303092919

图中上排是部署本地化：云端 Agent 受限于不能碰你本地的硬件，本地部署则可以接摄像头、音响、机械臂，可玩性高很多。下排是算力本地化：从"模型在云端"走向"模型在本地"，断网可用，对话只留在自己硬盘上，更像真正的私人助理。

人人都有一个 Agent？2026 年的两条路

所以回到开头那个问题，现在是不是人人都会有一个自己的 Agent？从趋势上看，是的，但"有一个"的方式会分化。2025 年 vibe coding 把"用自然语言写代码"普及了，2026 年大家要的是"用自然语言让 AI 替自己干活"。这条路上有两条很清晰的路径。一条是付费订阅商业通用 Agent，比如 Manus，模型和电脑都由服务方提供，开箱即用，适合不想折腾的人。另一条就是自己部署开源框架，比如 OpenClaw，机器和模型自己选，代码自己控，数据不出本机，适合愿意花时间调教、把 Agent 当成长期资产的人。两条路技术本质相同，都是「大模型 + 电脑」的通用 Agent，差别只在于你要的是省心，还是主权。人人都有一个 Agent，可能指的是人人都有一个"能用"的窗口，但那个窗口是别人家的云端，还是你家电脑上的开源实例，选择权在你。

结语

通用机器人可以承担营救、探索等高危场景，比如去鳌太线执行救援。但私人助理这个场景，无论是 OpenClaw 还是以后出现的其他形态，更可能的方向都是开源且本地化，不被单一厂商垄断，完全由用户自己掌控。2025 年 vibe coding 让"人人都会用 AI 写代码"往前迈了一大步，2026 年"人人都有一个 Agent"不再是一句口号，而是两条可选的路径。OpenClaw 的价值不在于替代 Manus，而在于给愿意折腾的人一条路，用开源和本地换来自主可控和隐私，再通过社区和迭代，把能力一点点打磨成适合自己的样子。选哪条路，取决于你更在意省心，还是更在意主权。