一个普通周一的早晨
2026年1月15日,星期一,上午9点47分。 维也纳的冬天依旧寒冷,多瑙河畔的雾气还未散去。对于大多数科技从业者来说,这只是又一个普通的工作日。然而,在GitHub的某个角落里,一个名为”Clawdbot”中文名“龙虾机器人”的仓库正在悄然改变一切。 Peter Steinberger,彼得·斯坦伯格这位奥地利开发者、在凌晨三点按下了”发送”按钮。他没有举办发布会,没有撰写新闻稿,甚至没有发一条推文。他只是简单地在自述文件中写道: “这是一个能真正控制你电脑的AI。不是聊天,是行动。” 72小时后,这个仓库的星标数突破了6万。一周后,14万开发者为之疯狂。人们开始用一个词来形容它——“最接近科幻电影钢铁侠中“贾维斯”的AI助手”。 这不是科幻电影的情节,这是2026年真实发生的技术革命。1.1 AI助手的进化之路:从Siri到ChatGPT
要理解OpenClaw的革命性意义,我们必须先回顾AI助手的发展历程。这段历史,是一部人类试图创造”数字伙伴”的漫长征程。
1.1.1 语音助手的黄金时代(2011-2016)
2011年10月4日,史蒂夫·乔布斯在病床上观看了iPhone 4S的发布会。这是他生前见证的最后一次苹果发布会。当Scott Forstall对着手机说出”What’s the weather like today?“时,Siri用温柔的女声回答:”Here’s the forecast for Cupertino…”
那一刻,世界为之震撼。
Siri的诞生标志着消费级AI助手的正式登场。它能理解自然语言,能执行简单任务,能和你”对话”。尽管当时的Siri还很稚嫩——经常听错指令,回答牛头不对马嘴,但它开启了一个新时代。
随后,Google Now(2012)、Cortana(2014)、Alexa(2014)相继登场。科技巨头们展开了一场激烈的”语音助手大战”。每个公司都在吹嘘自己的AI有多”智能”,能帮你定闹钟、查天气、播放音乐。
然而,这些语音助手有一个致命的局限:它们都是”命令-响应”式的工具。你说”播放音乐”,它就播放音乐;你说”设置闹钟”,它就设置闹钟。它们不会思考,不会规划,更不会主动帮你完成任务。
用计算机科学的术语来说,这些早期的AI助手都是反应式系统(Reactive Systems) ——它们只能对明确的指令做出反应,而无法理解复杂的意图,更无法执行多步骤的任务。
1.1.2 对话AI的崛起(2016-2022)
2016年,Google发布了Duplex。在I/O大会的演示中,Duplex打电话给一家餐厅预订座位,它的声音如此自然,以至于接电话的服务员完全没有意识到自己在和AI对话。
“Hi, I’d like to make a reservation for, um, Wednesday the 7th at, uh, 6 PM.”
Duplex的”um”和”uh”——那些人类说话时自然的停顿和犹豫——让全场观众惊叹。这是AI第一次展现出如此接近人类的对话能力。
Duplex的突破在于,它不再只是简单地响应命令,而是能够进行多轮对话,能够理解上下文,能够在不确定时主动询问。
然而,Duplex依然是一个”窄AI”——它只能做预订这件事,无法扩展到其他领域。它的智能是高度专门化的,而非通用的。
同一时期,对话AI领域迎来了另一场革命:基于Transformer架构的大规模语言模型开始崭露头角。
2018年,Google发布BERT;2019年,OpenAI发布GPT-2;2020年,GPT-3横空出世,1750亿参数的规模震惊业界。这些模型展现出了惊人的语言理解和生成能力,它们能写文章、能编故事、能回答问题,甚至能写代码。
但是,这些模型仍然有一个根本性的局限:它们只能生成文本,无法与真实世界交互。
你可以问GPT-3”帮我订一张去纽约的机票”,它会告诉你订机票的步骤,甚至会帮你写一封邮件给旅行社。但它无法真的打开浏览器,无法真的点击”预订”按钮,无法真的完成这个任务。
它们是”嘴炮型AI”——说得天花乱坠,但什么也做不了。
1.1.3 ChatGPT时刻:大模型的觉醒(2022-2025)
2022年11月30日,OpenAI发布了ChatGPT。
这不仅仅是一个产品的发布,这是人类历史上第一次,普通大众能够零距离接触到如此强大的AI。ChatGPT不仅能回答问题,还能进行深度对话,能理解复杂的上下文,能根据你的需求调整回答的风格和深度。
更重要的是,ChatGPT展现出了某种程度的”推理能力”。当你给它一个复杂的问题时,它会一步步分析,会展示思考过程,会在不确定时提出假设。
这种能力被研究者称为”链式思维(Chain-of-Thought)“——AI不再只是模式匹配,而是能够进行某种形式的逻辑推理。
ChatGPT的成功引发了一场”大模型军备竞赛”。Google推出了Bard(后来的Gemini),Meta推出了LLaMA,百度推出了文心一言,阿里推出了通义千问。各大科技公司纷纷投入数十亿美元训练自己的大模型。
然而,尽管这些模型越来越强大,它们仍然面临一个根本性的问题:它们被困在对话框里。
你可以和ChatGPT聊上几个小时,让它帮你写代码、写报告、写邮件。但如果你说”帮我把这份报告发到我的邮箱”,它只能无奈地回答:“抱歉,我无法访问您的邮箱。”
这就像是一个拥有爱因斯坦大脑的人,却被困在一个无法行动的躯壳里。他能看到世界,能理解世界,却无法触碰世界。
1.1.4 代理AI的萌芽(2024-2025)
2024年,AI领域出现了一个新概念:AI Agent(AI代理) 。
这个概念并不新鲜。早在20世纪80年代,人工智能研究者就提出了”智能代理”的概念。但直到大模型的出现,这个概念才真正具备了实现的可能。
AI代理的核心理念是:让AI不仅能”说”,还能”做” 。
一个真正的AI代理应该具备以下能力:
1. 感知(Perception) :能够理解环境,获取信息
2. 推理(Reasoning) :能够分析问题,制定计划
3. 行动(Action) :能够执行操作,与环境交互
4. 记忆(Memory) :能够记住过去的经验,学习成长
2024年,一些先驱性的AI代理开始出现。
AutoGPT是其中最引人注目的一个。它利用GPT-4的推理能力,将复杂任务分解为一系列子任务,然后自动执行。比如,你可以让它”帮我创建一个关于气候变化的网站”,它会自动规划任务、搜索信息、编写代码、部署网站。
然而,AutoGPT有一个致命的缺陷:它的行动能力非常有限。它主要通过调用API来执行任务,而API的覆盖范围是有限的。很多日常任务——比如在Excel中整理数据、在Photoshop中编辑图片、在浏览器中填写表单——都没有对应的API。
更重要的是,AutoGPT缺乏视觉理解能力。它无法”看到”屏幕上的内容,无法理解图形界面,无法像人类一样操作电脑。
这就好比一个盲人试图完成一项需要视觉的任务——即使他再聪明,也会遇到无法逾越的障碍。
1.2 OpenClaw的诞生:当AI学会”看”和”做”
1.2.1 Peter Steinberger:一个开发者的执念
要理解OpenClaw的诞生,我们必须先了解它的创造者——Peter Steinberger。
Peter Steinberger是奥地利维也纳的一名开发者。他在2011年创立了PSPDFKit,这是一家专注于PDF处理技术的公司。经过十多年的发展,PSPDFKit已经成为PDF SDK领域的领导者,服务了Dropbox、Box、Autodesk等数千家企业客户。
然而,Peter并不满足于此。
作为一个开发者,他每天都要和电脑打交道。他使用各种各样的工具——IDE、浏览器、终端、邮件客户端、项目管理工具……他发现,自己花费了大量时间在重复性的操作上:
• 在浏览器中搜索信息,然后复制粘贴到文档中
• 在不同的应用之间切换,整理数据
• 填写各种表单,完成各种审批流程
• 回复邮件,安排会议,管理日程
“为什么不能让AI帮我做这些事?”Peter经常这样想。
他尝试过各种自动化工具——Zapier、IFTTT、n8n、RPA……但这些工具都有一个共同的问题:它们都需要你预先定义好流程。
你想让Zapier帮你”收到重要邮件时自动回复”,你需要: 1. 选择触发器(收到邮件) 2. 设置过滤条件(什么是”重要”邮件) 3. 选择动作(发送回复) 4. 编写回复模板
这个过程不仅繁琐,而且僵化。如果情况稍有变化——比如你想根据邮件内容调整回复的语气——你就需要重新配置整个流程。
Peter想要的不是这样的工具。他想要的是一个真正理解他意图的助手——就像科幻电影中的JARVIS一样。
“Hey JARVIS,帮我处理一下今天的邮件。”
“好的,先生。我发现有3封邮件需要您亲自回复,我已经为您起草了回复草稿。另外,有5封垃圾邮件我已经删除,还有2封新闻订阅我已经归档到’稍后阅读’文件夹。”
这就是Peter想要的——一个能够理解复杂指令、能够自主决策、能够真正帮他完成任务的AI。
1.2.2 技术突破:多模态大模型+计算机视觉
2023年,AI领域发生了两件大事,为OpenClaw的诞生奠定了基础。
第一件事是多模态大模型的突破。
2023年3月,OpenAI发布了GPT-4。与之前的模型不同,GPT-4不仅能处理文本,还能理解图像。你可以给它一张图片,它能描述图片内容,能回答关于图片的问题,甚至能从图片中提取信息。
这标志着AI从”单模态”走向”多模态”的重要转变。
随后,Google发布了Gemini,Anthropic发布了Claude 3,这些模型都具备了强大的多模态能力。它们能够同时理解文本、图像、音频,甚至视频。
第二件事是计算机视觉技术的进步。
2023年,基于Transformer架构的视觉模型取得了重大突破。DETR、SAM(Segment Anything Model)等模型展现出了惊人的图像理解能力。它们不仅能识别图像中的物体,还能理解物体之间的关系,甚至能进行像素级的分割。
这两件事的结合,为Peter提供了一个关键的技术路径:让AI能够”看到”屏幕,并理解屏幕上的内容。
“如果AI能像人类一样看屏幕,那它就能像人类一样操作电脑。”Peter意识到。
这就是OpenClaw的核心技术理念:通过计算机视觉理解屏幕内容,通过多模态大模型进行推理和决策,通过模拟鼠标键盘操作来执行任务。
这个架构有以下几个关键优势:
1. 通用性:不需要为每个应用编写专门的集成代码,AI可以直接操作任何有图形界面的应用。
2. 灵活性:不需要预定义流程,AI可以根据实际情况动态调整策略。
3. 可解释性:AI的每一步操作都是可见的,用户可以随时了解它在做什么。
4. 安全性:所有操作都在本地执行,敏感数据不会上传到云端。
1.2.3 72小时,6万星标:开源社区的狂热
2026年1月15日,Peter将Clawdbot的代码发布到了GitHub。
他没有做任何宣传,只是在README中简单地介绍了这个项目的功能和原理。然而,消息像野火一样迅速传播开来。
第一个发现这个项目的是一位名叫Alex的开发者。他在Twitter上发了一条推文:
“刚刚试了一个叫Clawdbot的东西。我让它’帮我把这个Excel表格里的数据整理成图表’,它真的做到了。自己打开Excel,选中数据,插入图表,调整样式。全程我没碰一下鼠标。这太疯狂了。”
这条推文被转发了数千次。越来越多的人开始尝试Clawdbot,并在社交媒体上分享他们的使用体验。
有人让它帮自己写了一封辞职信——它打开了Word,分析了之前的邮件风格,写了一封既专业又不失礼貌的辞职信。
有人让它帮自己整理了电脑里的照片——它打开了文件管理器,按照日期和地点对照片进行了分类,还删除了重复和模糊的照片。
有人让它帮自己预订了机票——它打开了浏览器,搜索航班,比较价格,填写信息,完成了预订。
这些视频在YouTube和TikTok上疯传。人们被这个”能真正干活的AI”震惊了。
24小时内,Clawdbot的GitHub星标数突破了1万。 48小时内,突破了3万。 72小时内,突破了6万。
这个增长速度在GitHub历史上是前所未有的。相比之下,React达到6万星标用了3年,VS Code用了2年,而Clawdbot只用了3天。
开源社区陷入了狂热。开发者们纷纷提交Pull Request,贡献新的功能:
• 有人添加了Discord集成,让Clawdbot可以通过Discord消息控制
• 有人添加了WhatsApp集成,让它可以通过WhatsApp接收指令
• 有人添加了语音控制功能,让它可以通过语音交互
• 有人添加了插件系统,让它可以扩展新的能力
Peter被这股热情淹没了。他在GitHub上写道:
“我从未想过这个项目会引起如此大的反响。感谢每一位贡献者,你们让Clawdbot变得比我想象的更好。”
1.3 传统AI助手 vs OpenClaw:本质的区别
OpenClaw的出现,让人们开始重新思考”AI助手”的定义。它与传统AI助手之间,存在着本质的区别。
1.3.1 从”命令-响应”到”意图-执行”
传统AI助手的工作模式是命令-响应式的。
你说”播放音乐”,Siri就播放音乐。你说”设置闹钟”,Alexa就设置闹钟。这些指令是明确的、原子化的,AI只需要识别关键词,然后调用对应的功能。
这种模式的问题在于:它要求用户用机器能理解的方式表达意图。
如果你想让Siri帮你”把明天下午3点的会议提前到2点”,你需要说:“把明天下午3点的会议改到2点。”如果Siri没有正确识别”改到”这个关键词,它可能会误解你的意图。
OpenClaw的工作模式是意图-执行式的。
你不需要告诉它”怎么做”,你只需要告诉它”做什么”。它会自己理解你的意图,自己规划步骤,自己执行任务。
比如,你说:“帮我把明天下午3点的会议提前到2点。”OpenClaw会:
1. 打开日历应用
2. 找到明天下午3点的会议
3. 点击编辑
4. 将时间改为2点
5. 保存修改
6. (可选)如果会议有邀请人,发送更新通知
整个过程都是自动完成的。你不需要告诉它”打开日历”、“找到会议”、“点击编辑”……它自己就知道该怎么做。
这就是意图驱动(Intent-Driven) vs 命令驱动(Command-Driven) 的本质区别。
1.3.2 从”对话框”到”真实世界”
传统AI助手被困在对话框里。它们能和你聊天,能回答你的问题,但它们无法真正影响物理世界(或数字世界)。
ChatGPT可以帮你写一封邮件,但它无法帮你发送这封邮件。它可以帮你写一段代码,但它无法帮你运行这段代码。它可以帮你规划旅行,但它无法帮你预订机票。
OpenClaw打破了这道”墙”。
它不仅能”说”,还能”做”。它可以直接操作你的电脑,打开应用,点击按钮,输入文字,就像一个人类助手一样。
这种能力被研究者称为具身智能(Embodied AI) ——AI不再只是一个抽象的算法,而是有了一个”身体”(电脑),能够与环境进行物理交互。
1.3.3 从”无状态”到”有记忆”
传统AI助手是无状态的。每次对话都是独立的,它们不会记住你之前说过什么,也不会记住你的偏好和习惯。
你昨天告诉Siri”我喜欢听爵士乐”,今天它还是会随机播放流行音乐。你上周告诉ChatGPT”我的公司叫ABC科技”,这周它还是会问”您的公司叫什么名字”。
OpenClaw是有状态的。它拥有持久记忆(Persistent Memory) 。
它会记住你的偏好:你喜欢用什么软件,你喜欢什么样的排版风格,你通常在什么时间处理什么类型的工作。
它会记住你的习惯:你每天早上都会查看邮件,你每周五都会整理周报,你经常在晚上写代码。
它会记住你交给它的任务:“帮我下周提醒客户付款”、“帮我持续关注这个项目的进展”、“帮我记住这个密码但别告诉别人”。
这种记忆能力让OpenClaw能够提供更个性化、更主动的服务。它不再只是一个被动的工具,而是一个真正了解你的”数字伙伴”。
1.3.4 对比表格:传统AI助手 vs OpenClaw
| 维度 | 传统AI助手(Siri/Alexa/ChatGPT) | OpenClaw |
|---|---|---|
| 交互方式 | 命令驱动,需要明确指令 | 意图驱动,理解自然语言 |
| 行动能力 | 有限,主要通过API调用 | 强大,可直接操作电脑界面 |
| 适用范围 | 预定义的功能和集成 | 任何有图形界面的应用 |
| 记忆能力 | 无状态,每次对话独立 | 有状态,拥有持久记忆 |
| 自主性 | 被动响应,等待指令 | 主动执行,可自主决策 |
| 灵活性 | 僵化,需要预配置流程 | 灵活,可动态调整策略 |
| 可解释性 | 黑盒,不清楚内部逻辑 | 透明,可观察每一步操作 |
| 隐私安全 | 数据上传云端处理 | 本地优先,数据不离开电脑 |
1.4 开源的力量:为什么OpenClaw选择了开源
OpenClaw的另一个重要特点是:它是开源的。
在AI领域,开源与闭源一直是一个争议性的话题。OpenAI、Google、Anthropic等公司的模型都是闭源的——你可以通过API使用它们,但你无法看到它们的代码,无法了解它们的内部工作原理。
Peter选择开源OpenClaw,是基于以下几个考虑:
1.4.1 透明性:让用户知道AI在做什么
AI代理拥有很高的权限——它可以控制你的电脑,访问你的文件,操作你的应用。这种权限如果被滥用,后果是灾难性的。
开源意味着任何人都可以审查代码,了解AI的工作原理,确保它不会偷偷做坏事。这种透明性是建立信任的基础。
1.4.2 可定制性:让每个用户都有自己的OpenClaw
不同的用户有不同的需求。一个设计师可能希望OpenClaw擅长处理Photoshop和Figma,一个程序员可能希望它擅长处理IDE和Git,一个会计师可能希望它擅长处理Excel和财务软件。
开源让用户可以根据自己的需求定制OpenClaw。你可以修改它的行为,添加新的功能,甚至训练自己的模型。
1.4.3 社区力量:让全世界的开发者一起改进
开源的最大优势在于社区。当全世界的开发者都可以贡献代码时,项目的发展速度是惊人的。
OpenClaw发布后的几周内,社区就贡献了:
• 15+通信平台的集成(WhatsApp、Telegram、Slack、Discord等)
• 50+插件,扩展了各种新功能
• 多语言支持(中文、日文、德文、法文等)
• 性能优化,让OpenClaw运行得更快更稳定
这种发展速度是任何一家公司都无法单独实现的。
1.4.4 去中心化:避免单一公司的控制
如果OpenClaw由一家公司控制,那么这家公司就拥有了巨大的权力。它可以决定OpenClaw能做什么、不能做什么,可以审查用户的行为,甚至可以在某一天突然关闭服务。
开源避免了这种风险。即使Peter不再维护OpenClaw,社区也可以继续开发和改进它。OpenClaw属于所有人,而不是某一家公司。
1.5 未来已来:AI代理的时代
OpenClaw的出现,标志着AI代理时代的正式到来。
这不是一个孤立的事件。在OpenClaw发布前后,类似的AI代理项目如雨后春笋般涌现:
• Devin:由Cognition AI开发的AI软件工程师,能够独立完成编程任务
• Adept:能够操作浏览器的AI代理,可以完成各种网页任务
• HyperWrite:能够自动撰写和编辑文档的AI助手
• MultiOn:能够控制多个应用的AI代理平台
这些项目各有特色,但它们都指向同一个方向:让AI从”能说”走向”能做” 。
这个转变的意义是深远的。
对于个人用户来说,AI代理意味着生产力的巨大提升。你可以把繁琐的重复性工作交给AI,把时间和精力集中在更有创造性的事情上。
对于企业来说,AI代理意味着运营效率的革命。你可以用AI代理来完成客户服务、数据处理、内容创作等工作,大幅降低人力成本。
对于整个社会来说,AI代理意味着工作方式的重新定义。很多传统的工作岗位可能会被AI取代,但同时也会诞生很多新的岗位——AI训练师、AI监督员、AI伦理专家……
当然,这个转变也带来了挑战和风险:
• 隐私和安全:AI代理拥有很高的权限,如何确保它不会被滥用?
• 就业冲击:大量工作被AI取代,如何解决失业问题?
• 伦理和责任:当AI犯了错误,谁来承担责任?
• 依赖和控制:人类是否会过度依赖AI,失去自主能力?
这些问题没有简单的答案。但历史告诉我们,技术革命从来都不是一帆风顺的。蒸汽机、电力、互联网……每一次技术革命都带来了巨大的社会变革,既有进步,也有阵痛。
AI代理时代也不例外。
本章小结
在这一章中,我们回顾了AI助手的发展历程,从早期的语音助手到ChatGPT,再到今天的AI代理。我们了解了OpenClaw的诞生背景、技术原理和开源理念。我们对比了传统AI助手与OpenClaw的本质区别,看到了AI从”能说”走向”能做”的历史性转变。
OpenClaw的出现不是偶然的。它是多年技术积累的结晶,是多模态大模型、计算机视觉、开源社区等多种因素共同作用的结果。
更重要的是,OpenClaw代表了一种新的范式:意图驱动的、具身的、有记忆的AI代理。这种范式将深刻改变我们与AI的关系,改变我们工作的方式,甚至改变我们对”智能”本身的理解。
在下一章中,我们将深入探讨OpenClaw的技术演进历程——从Clawdbot到OpenClaw的名称变更背后的故事,以及它的技术架构是如何一步步发展完善的。
本章核心观点:
1. AI助手经历了从语音助手到对话AI再到AI代理的演进过程
2. OpenClaw的核心突破在于让AI能够”看到”屏幕并”操作”电脑
3. 传统AI助手与OpenClaw的本质区别在于:命令驱动 vs 意图驱动、对话框 vs 真实世界、无状态 vs 有记忆
4. 开源是OpenClaw成功的重要因素,它带来了透明性、可定制性、社区力量和去中心化
5. AI代理时代的到来将深刻改变个人生产力、企业运营和社会工作方式