01 一个IT工程师的梦想
大家应该都对钢铁侠电影里面的JARVIS这个人工助理印象深刻,托尼可以让JARVIS去执行很多繁杂的事情,比如分析战斗数据、比如交易银行大楼
作为1个IT工程师,当时肯定也想着:如果我也有1个JARVIS该多好。随着这两年大模型的快速发展,这个梦想也在转变为现实。
02 OpenClaw体验
25年末一个叫ClawdBot(OpenClaw的曾用名称)的开源项目快速的火爆起来,它的目标是打造1个AI助理,可以通过相关即时通讯软件,让它完成相关任务。
小故事: 由于ClaudeBot太过火爆,AI巨头Anthropic觉得它的名称和它们的AI产品Claude太过相似,通过法律手段要求开源作者进行改名,随后改名为:Moltbot,后续作者为了提升品牌辨识度和传播性,再更名为 OpenClaw
下面是我的一个简单部署和使用体验
部署
我这边直接使用了腾讯云进行部署,主要考虑原生的openclaw主要适配的消息渠道是国外的相关即时通讯软件,而我们主要使用国内的软件比如微信,所以直接用腾讯云做好的系统模版一键部署,可以省掉很多研究的工作量,毕竟我们的目标也只是快速体验下 具体的部署流程我就不详细说明了,腾讯云很贴心的准备了部署教程可以参考,创建服务器后需要填写的主要内容是3块:
- 模型用哪个:腾讯云的这个部署模版内置已经对接了国内一众大模型厂商,非常贴心
- 通道用哪个:这边我使用了企业微信
- 技能用哪些:我这边暂时没有额外添加技能,openclaw内置也有很多技能
部署这块腾讯的部署教程已经很详细了,就不详细说明了,照着它的文档基本就可以拉起,部署过程如果遇到任何问题,可以求助下大模型,提升解决问题的效率
体验
打开它的web控制台,如图:
openclaw作为1个AI助理,我们期望的场景应该是:我们输入一段话,AI能理解我们的诉求,并自己规划、执行、告知最终结果给我们这么一个过程
我们以询问天气为例,看看openclaw是怎么完成这个过程的: 整个过程比较长,我总结下:
- 我发送1个指令:咨询今天北京的天气
- openclaw收到指令后,首先查找了它内置的skills,发现有一个weather skill
- 它阅读了下这个weather skill,发现需要怎样怎样就可以查询天气了
- 接下来它执行了个curl命令去调用了1个接口获取北京天气
- 命令执行比较长,它等待了1会,随后它发现这个curl命令执行失败了,它又换了1个接口去执行
- 最后它把接口返回的天气信息解析,并以自然语言的形式返回输出了
通过上述流程分析,我们可以发现openclaw的确可以实现:用户输入1个指令->AI自我规划->执行->返回结果这么1个过程,全程不需要我们进行干预
我们看到web控制台还有个定时任务功能,我们再体验下(整个对话有点长,我就只截关键截图吧):
我们还是总结下:
- 我们要求openclaw每天早上7点给我发送北京的天气预报
- openclaw收到指令后,首先查了下消息渠道skill,但是由于我没有配置消息渠道,所以openclaw提醒我需要配置1个消息渠道
- 我选择当前对话提醒,然后它执行了openclaw内置的1个命令,创建了1个定时任务
- 最后它告知我创建成功了
我们观察web控制台的定时任务模块,的确也发现创建了1个定时任务
通过以上体验,我们可以发现openclaw还是很强大的,结合我最近刷到的一些新闻和帖子,有些大佬部署了openclaw,可以24h给他打工,比如开通了github权限,可以帮忙写代码,比如开通了股票交易权限,可以直接帮忙盯盘交易啥的,只能说openclaw的上限是你的想象力,大家可以自己部署1个玩玩
03 核心本质
在讲核心本质前,插入1个小故事:我过年期间部署了1个openclaw,然后就和群里的小伙伴吹嘘了下,然后小伙伴提了问题:openclaw和claude code有什么区别
我当时回答说claude code是一个编程工具,随着最近我深入使用openclaw,我感觉它们其实是一回事,即openclaw本质上还是1个agent,只是太过火爆,大家把它吹嘘的太过神话了
接下来再说说什么是Agent(以下均是个人的理解,如果有不对的,欢迎留言讨论)
- 在最早openai推出ChatGPT出来的时候,只能在1个聊天界面进行沟通;我们自己写代码做一些AI能力,模型厂商提供的接口也是一个xxxChat接口,也就大模型最核心的本质还是1个流式对话,这也是agent的大脑
- 随后大佬们发现光有大脑也不行,缺少眼和手,这时候他们提出了工具调用,即封装一些工具,然后在大模型对话的时候,让大模型去执行技能,比如可以websearch、比如可以写文件等,这就是agent的手和脚
- agent还需要有记忆,大模型的上下文大小以及物理的一些文件构成了记忆,打个比喻:上下文窗口是大脑中的记忆,速度快但是容量有限,而我记在本子上的事情是物理文件,虽然慢,但是容量大
- skills系统:如果大模型有了工具可以根据自己的推理去执行,那么skills就是高级版的工具,比喻:skills更像1个独立领域的说明书,比如我想开车,开车的skill会讲清楚如何启动车辆,如何踩刹车,如何踩油门等,把这个领域的知识汇聚成了1个说明书
有了大脑+手脚+记忆,这时候大模型就进化成了agent,能自主规划任务,挑选合适的工具去执行任务,去验证任务准确性,最终反馈结果
回到开头的小故事,可以发现openclaw的本质还是1个agent,它在agent的基础上做了很多生态建设和设计,比如clawhub(技能商店,大家可以自己写技能并分享)、比如它抽象设计了gateway、channel等,可以兼容各大厂商的模型和各类即时通讯工具,让使用者开箱即用、比如它还做了相关安全设计,可以防止ai越过边界,误操作电脑文件等
前段时间火爆的claude cowork,其实本质也是1个agent,它可以一键整理桌面文件等
04 思考
通过上述对openclaw的体验,外加核心本质的总结,我的思考如下:
- AI时代,虽然表面看相关AI技术日新月异,而且每一个出来都喊着”颠覆式”,但是它们的本质还是1个agent,只要这个底层的agent技术没有大变化,基于它包装出来的产品、工具基本还是那些能力,大家不必过于焦虑恐慌
- 随着模型能力的提升,后续的大模型可能出厂就是1个agent,自带了非常多的技能,有非常成熟的工具,甚至可能目前最核心的流式对话也会被替代掉,当然这是我的一个猜想
05 预告
在体验了openclaw后,我觉得它存在几个问题: 1、安全问题:openclaw本身是开源的,且非常火爆,网上估计有非常多人部署了并且开放了端口访问,树大招风,必然会导致被攻破,而这里面有很多隐私信息,比如各种账号,各种数据,非常不安全 2、功能太过沉重:openclaw为了兼容各家大模型厂商和各种消息渠道,代码里面有好多都是这些适配代码,而我自己使用,可能微信1种方式就够了
所以基于上述问题,我准备自己撸1个简化版的oepnclaw,在接下来的系列中,我不会讲枯燥的代码实现细节,而是会分享:
- 我是如何用“产品经理”的思维,指挥 AI 帮我写代码的。
- 如何打通 滴答清单,让 AI 长出“手脚”。
- 如何连接 Obsidian,让 AI 拥有“记忆”。
- 最终实现一个自动化闭环:看到好视频 -> AI 自动总结 -> 存入笔记 -> 生成行动清单。
如果你也对拥有一个专属的 AI 管家感兴趣,或者想看看普通人如何用 AI 赋能生活,欢迎关注我的折腾日记。