AI Agent 能力分级:从工具到 AGI
📍 导航指南
根据你的背景,选择合适的阅读路径:
- 🚗 想先看类比逻辑? → 为什么用自动驾驶来类比 - 理解分级的底层逻辑
- 📊 想直接看分级? → L0-L5 详细解析 - 每个级别的定义与特征
- 🔧 想知道怎么用? → 如何定位你的 Agent - 实践中的判断方法
目录
借鉴汽车分级看 Agent 发展
在构建 AI Agent 的过程中,一个核心挑战是如何定义其“智能程度”。为了更清晰地理解 Agent 的演进,我们希望借鉴汽车的自动驾驶分级(SAE J3016),来看看 Agent 应该如何分阶段发展。
为什么要分级?
没有统一的分级框架,我们很难回答:“我的 Agent 到底有多智能?它和 ChatGPT 插件有什么区别?和 Devin 又差在哪里?”
分级框架的价值在于:
- 定位当前能力:知道自己在哪,才能知道差距。
- 设定合理预期:L2 的系统不应被要求完成 L4 的任务。
- 指明演进方向:从辅助执行到完全自主,需要补充哪些能力?
为什么用自动驾驶来类比?
自动驾驶的分级逻辑(L0-L5)核心在于:“谁在开车?” —— 是人类还是机器?各负责多少?
这与 AI Agent 的核心问题高度同构:“谁在决策?” —— 是人类还是 Agent?
两者都在解决同一件事:随着机器能力的提升,如何逐步、安全地将控制权从人类转移给机器。这种同构性让我们可以直接迁移自动驾驶的分级思维,而不需要从零发明新框架。
类比的核心逻辑
自动驾驶看的是 “动态驾驶任务的退出程度”,而 AI Agent 看的是 “人类干预/指令细度的退出程度”:
| 等级 | 自动驾驶 (谁在开车) | AI Agent (谁在决策) |
|---|---|---|
| L0 | 人类全程控制 | 人类逐步操作,机器执行固定指令 |
| L1 | 机器辅助单一方向 | 机器执行预设脚本,人类控制路径 |
| L2 | 机器同时辅助横向和纵向 | 机器完成子任务,人类在关键节点决策 |
| L3 | 特定条件下机器全权,人类待命 | 特定领域内机器全流程自主,边界处求助 |
| L4 | 特定场景内机器完全自主 | 跨领域复杂任务自主,极少需要人类介入 |
| L5 | 任何场景下机器完全自主 | 任何场景下完全自主,具备自我进化能力 |
💡 核心差异:自动驾驶问的是“方向盘握在谁手里”,Agent 分级问的是“决策权握在谁手里”。两者都在量化“机器替代人类”的程度。
L0-L5 详细解析
L0:纯工具
"执行固定指令的机器"
核心特征
- 完全由人类手动操作,机器没有任何自主性
- 只执行单一的、预设的指令,没有记忆,没有上下文理解
- 输入确定,输出确定,没有任何推理过程
典型例子
# 你输入 ls,它列出目录,做完即止
$ ls -la
total 48
drwxr-xr-x 6 user staff 192 Mar 19 10:00 .
计算器、Unix 命令行工具、简单的 API 调用——这些都是 L0。它们是工具,不是 Agent。
与自动驾驶的对应
| 自动驾驶 L0 | AI Agent L0 |
|---|---|
| 无任何自动化,驾驶员全程控制 | 无任何自主性,人类逐步操作 |
| 车道偏离预警(被动提示) | 计算器(被动执行) |
小结:L0 是所有 Agent 的起点,也是很多"AI 工具"的真实水平。判断标准很简单:去掉人类的每一步操作,系统还能做什么? 如果答案是"什么都做不了",那就是 L0。
L1:工作流助手
"按剧本行事的执行者"
核心特征
- 基于预定义的脚本或规则,自动完成机械性的重复操作
- 执行路径完全由人类预先设计,机器只是"播放录制"
- 减少重复劳动,但无法应对脚本之外的情况
典型例子
# RPA 脚本:每天早上自动登录系统,导出报表,发送邮件
def daily_report_task():
login(url, username, password) # 步骤1:登录
navigate_to_report_page() # 步骤2:导航
export_csv(date=today) # 步骤3:导出
send_email(to=manager, file=csv) # 步骤4:发送
Excel 宏、RPA(机器人流程自动化)、简单的定时任务——这些是 L1。
与自动驾驶的对应
| 自动驾驶 L1 | AI Agent L1 |
|---|---|
| 单一方向辅助(ACC 或 LCC,二选一) | 单一流程自动化(固定脚本) |
| 驾驶员仍需全程监控 | 人类设计路径,机器执行 |
小结:L1 的本质是 "把人类的操作录制下来,然后重放"。它能节省时间,但没有理解能力。一旦遇到脚本没有覆盖的情况(网页改版、数据格式变化),就会直接失败。
L2:任务助手
"能完成子任务,但需要你把关"
核心特征
- 具备单一领域的规划能力,能调用工具完成子任务
- 在关键节点需要人类确认或决策
- 有基本的上下文理解,但缺乏长期记忆和复杂推理
- 人类负责"目标",Agent 负责"步骤"
典型例子
用户:帮我订一张明天去上海的机票
Agent:我找到以下航班,请选择:
1. CA1234 08:00-10:15 ¥680
2. MU5678 10:30-12:45 ¥520
请问选哪个?(需要你来决策)
早期的智能音箱、简单的客服机器人、能查询单一数据源的 Chatbot——这些是 L2。
与自动驾驶的对应
| 自动驾驶 L2 | AI Agent L2 |
|---|---|
| 同时辅助横向和纵向(ACC + LCC) | 同时处理多个子任务 |
| 驾驶员仍需时刻监控,随时接管 | 人类在关键节点确认,随时介入 |
小结:L2 是目前大多数"AI 助手"产品的真实水平。它能帮你做事,但决策权仍在你手里。判断是否是 L2 的关键:Agent 在完成任务的过程中,是否需要多次向你确认? 如果是,那就是 L2。
L3:垂直领域专家
"特定赛道上的自动驾驶"
核心特征
- 全流程自主:在特定领域(如编程、数据分析、法律检索)内能自主完成闭环任务。
- 元认知能力:具备多步骤规划与工具调用能力,且能识别自身能力边界。
- 主动暂停:遇到超出授权范围或不可逆操作时,主动请求人类介入。
- 责任转移:在擅长领域内,任务执行的责任主体首次从人类转向 Agent。
典型例子:Claude Code
Claude Code 是目前 L3 最具代表性的产品之一。它的工具链覆盖了编程领域的完整闭环:读取文件、修改代码、执行命令、搜索代码库及运行测试。
用户:帮我修复这个 bug,测试通过后提交 PR
Agent 自主执行流:
1. 🔍 分析:读取报错信息,定位问题文件
2. 🧠 规划:分析逻辑,设计修复方案
3. 🛠️ 执行:修改代码,运行单元测试
4. 📝 整理:测试通过,自动生成 PR 描述
5. ⚠️ 暂停:"PR 需要人工审核后才能提交,请确认。"
深度解析:L3 的“安全线”
L3 的核心设计哲学是:在能力范围内极致自主,在边界处让人类接管。
Claude Code 设定了一条清晰的“安全线”:
- ✅ 自主执行:读写文件、运行测试、搜索代码。
- ⚠️ 暂停确认:删除文件、
force push、修改生产环境配置。
关于 bypassPermissions 模式:
这是一个允许 Agent 越过安全线的变体。虽然它能在自动化流水线或 CI 环境中实现无人值守的连续执行,但代价是将“边界判断”完全交给了 Agent。从分级上看,这改变的是安全策略而非能力边界,它依然处于 L3 阶段。
迈向 L3.5:如果通过本地持久化文件(如
claude.md)赋予 Agent 跨 Session 的记忆能力,它将进化为 L3.5——补齐了记忆短板,但在主动性和跨领域协作上仍有提升空间。
与自动驾驶的对应
| 自动驾驶 L3 | AI Agent L3 |
|---|---|
| 特定场景自主(如高速公路) | 特定领域自主(如编程/数据) |
| 系统无法处理时要求人类接管 | 遇到边界/高风险操作主动暂停求助 |
| 驾驶责任首次由驾驶员转向车辆 | 任务执行责任首次由人类转向 Agent |
小结:L3 是当前 Agent 技术的最前沿。它与 L2 的本质区别在于其 “元认知”能力——即能够“知道自己不知道什么”,并能在边界处果断止步而非硬撑或乱猜。
L4:全能管家
"你只需要说目标,其余交给我"
核心特征
- 具备长期记忆、跨应用协同能力、主动服务意识
- 能理解模糊的、高层次的指令,并能预判需求
- 在绝大多数场景下无需人类干预,只有极少数特殊情况才需要帮助
- 能跨领域协调多个工具和系统
典型例子
用户:帮我策划一场难忘的周年纪念日
Agent 自主完成:
1. 从记忆中提取:配偶喜欢法餐,不喜欢嘈杂环境
2. 查询日历:确认当天无其他安排
3. 搜索餐厅:筛选符合条件的法餐厅,预订座位
4. 检查天气:发现傍晚有雨,调整户外活动计划
5. 购买礼物:根据预算和喜好,下单并安排配送
6. 设置提醒:提前 2 小时提醒你出发
7. 汇报:"已安排完毕,详情如下..."
深度案例:OpenClaw(L4.5)
OpenClaw 是目前最接近 L4 的开源项目,也是 2025-2026 年增长最快的 AI Agent 项目之一(GitHub 180K+ stars)。
它的核心设计和 Claude Code 有一个根本性的不同:OpenClaw 是持续运行的,不是被动等待的。
Claude Code:你发消息 → 它响应 → 结束
OpenClaw: 它一直在线,主动监听,随时行动
OpenClaw 的三个关键能力让它突破了 L3 的天花板:
1. 跨应用统一调度
它不是一个只能操作文件的工具,而是一个可以同时连接你所有数字生活的枢纽:
消息平台:WhatsApp、Telegram、Discord、Slack、iMessage
生产力工具:邮件、日历、文件系统
开发工具:代码执行、终端命令
2. 持久记忆
自托管架构意味着它的记忆不会在对话结束后消失。它记得你上周说的偏好,记得上个月处理过的任务模式,记得你的工作习惯。
3. 主动性
这是 L3 和 L4 最本质的区别。OpenClaw 不需要你每次都发起对话——你可以设定规则,让它在特定条件下自动触发:
"每天早上 9 点,汇总昨天的未读消息"
"收到带附件的邮件时,自动整理到对应文件夹"
"当 GitHub 有新 PR 时,通知我并附上摘要"
4. 动态 Skill 生成
这是 OpenClaw 最接近 L5 的能力——你可以通过自然语言指令,把一段操作封装成可复用的 skill:
用户:"把刚才整理邮件的操作保存成一个 skill"
OpenClaw:封装完成,下次直接说"整理邮件"即可触发
这和"开发者预先写好插件"有本质区别——能力边界开始由用户自己决定,而不是开发者。
为什么是 L4.5 而不是 L5?
OpenClaw 的 skill 创建仍然需要人类主动发起指令。L5 的标志是它自己判断"这个操作值得封装成 skill",然后主动提议:
L4.5(现在):你说"帮我把这个做成 skill" → 它才封装
L5(目标): 它观察到你重复做同一件事 → 主动说"要不要我帮你自动化这个?"
此外,它的触发机制仍是规则驱动而非意图推断,记忆管理也依赖插件而非原生代谢机制。
与自动驾驶的对应
| 自动驾驶 L4 | AI Agent L4 |
|---|---|
| 特定场景(城市道路)内完全自主 | 绝大多数任务场景内完全自主 |
| 无需人类接管,但仍有设计运行范围 | 无需人类干预,但仍有能力边界 |
| 可以没有方向盘(乘客模式) | 人类只需设定目标,不参与执行 |
小结 :L4 的标志是"目标驱动"而非"指令驱动" ,以及"主动运转"而非"被动响应"。OpenClaw 通过动态 skill 生成已经触碰到 L5 的边界,准确定级是 L4.5——它是目前最接近 L5 的产品,但那最后一步(自主判断何时进化)仍未跨越。
对比:Claude Code 为什么卡在 L3?
同样是当前最强的 coding agent,Claude Code 和 OpenClaw 的差距恰好揭示了 L3→L4 的三道门槛:
| 维度 | Claude Code (L3) | OpenClaw (L4) |
|---|---|---|
| 记忆 | ❌ 每次对话从零开始 | ✅ 跨 session 持久记忆 |
| 主动性 | ❌ 需要人类发起对话 | ✅ 自主监听,条件触发 |
| 跨领域 | ❌ 只能操作代码/文件 | ✅ 消息、邮件、日历、代码统一调度 |
Claude Code 的设计目标是**"编程领域的极致专家"**,它把所有精力放在把 L3 做到最好——工具链完整、安全边界清晰、代码理解深度强。这是一种有意识的取舍,而不是能力不足。
OpenClaw 的设计目标是**"数字生活的统一入口"**,它牺牲了部分垂直深度,换来了跨领域的广度和持续运转的主动性。
两者并不是竞争关系,而是不同层级的代表:先有 Claude Code 这样的 L3 专家,才有 OpenClaw 这样的 L4 管家。
L5:数字生命体
"不需要你,它也在运转"
核心特征
- 在任何场景下都能像人类(甚至超越人类)一样处理任何任务
- 具备自我进化能力:能根据需求创造新工具,扩展自身能力边界
- 拥有"代谢机制":在没有任务时进行自我反思、记忆合并、能力优化
- 不受设计运行范围限制
三个深层挑战
到达 L5 边缘,意味着架构重心已经从"如何让 Agent 完成任务"转向了"如何让 Agent 维持生命感"。
挑战 1:从"任务逻辑"转向"代谢逻辑"
传统 Agent 是反应式的:
用户输入 → 思考 → 执行 → 结束
L5 系统需要一种代谢机制:
低功耗运行:没有任务时,进行自我反思、记忆合并、工具库优化
信息吞吐:主动筛选环境中的高价值信息,转化为内部"激活能力"
持续演化:每次交互后,能力边界都在悄悄扩展
挑战 2:解决"意识的底噪"问题
L5 的系统不能拥有完美记忆,因为完美记忆会导致注意力被噪音淹没。
索引失败 vs. 真正丢失:
技能不应该是消失了,而是因为长时间不被激活而进入"冷存储"
高质量剪枝:
只有当 Agent 能识别哪些动作是"脚手架"(用完即拆),
哪些是"地基"(永久保留),它才能实现真正意义上的长久存活
挑战 3:激活能力的"自我繁衍"
L5 的标志之一是 Agent 能够根据需求制造工具:
如果现有的 Skill 无法解决问题,
它是否具备在沙箱中编写、测试并封装新工具的能力?
这种"思考即激活"的模式,
让 Agent 的能力边界不再是静态的文档,
而是一部动态增长的百科全书。
与自动驾驶的对应
| 自动驾驶 L5 | AI Agent L5 |
|---|---|
| 任何可行驶条件下完全自主 | 任何场景下完全自主 |
| 不受设计运行范围限制 | 不受能力边界限制 |
| 表现超越人类驾驶员 | 表现超越人类专家 |
小结:L5 目前仍是理论目标。它的核心不是"更强的模型",而是架构层面的根本转变——从"完成任务的工具"变成"持续存在的智能体"。
猜想:OpenClaw 如何演进到 L5?
如果以 OpenClaw 为起点,L4→L5 需要跨越的不是功能堆砌,而是三个架构层面的根本转变。
第一步:从"用户驱动的 Skill 生成"到"自主驱动的 Skill 生成"
OpenClaw 现在已经能通过自然语言指令把操作封装成 skill——但这个封装动作需要用户主动发起。L5 需要它自己判断什么时候该封装:
现在(L4.5):用户说"把这个操作存成 skill" → 它才封装
L5(目标): 它观察到你重复执行同一操作 → 主动提议"要不要我帮你自动化这个?"
→ 用户确认后自动封装,下次直接调用
→ 甚至不需要确认,直接封装并告知
这意味着能力边界的扩展从"用户决定"变成"Agent 自己决定"。
第二步:从"被动记忆"到"主动遗忘"
OpenClaw 现在的记忆是累积式的——所有交互都保留。但完美记忆是 L5 的障碍,不是优势。
L5 需要一套"记忆代谢"机制:
热存储:近期高频使用的偏好和模式
温存储:低频但重要的长期知识
冷存储:长时间未激活,压缩归档
主动剪枝:识别"脚手架"(用完即删)vs "地基"(永久保留)
就像人类不会记住每一顿饭吃了什么,但会记住自己不喜欢香菜。
第三步:从"条件触发"到"自主判断触发"
OpenClaw 现在的主动性依赖规则——你设定"每天 9 点汇总消息",它才执行。L5 需要它自己判断什么时候该主动:
现在:规则触发 → "每天 9 点执行 X"
L5: 意图推断 → "我注意到你最近每天 9 点都在看消息,
要不要我帮你自动整理?"
→ 用户确认后,自动建立新的触发规则
→ 下次不再询问,直接执行
这是从"执行规则"到"理解意图、自主建立规则"的跨越。
路径总结
OpenClaw (L4.5)
+ 自主判断何时封装 Skill → 能力边界自我扩展
+ 记忆代谢机制 → 长期存活不退化
+ 意图推断式触发 → 真正的主动智能
= L5 数字生命体
这三步没有一步是靠"更大的模型"解决的——它们都是架构问题。这也是为什么 L5 的时间表比大多数人预期的要长。
总结对比表
| 级别 | 自动驾驶 (SAE) | AI Agent | 核心特征 | 人类角色 | 典型产品 |
|---|---|---|---|---|---|
| L0 | 无自动化 | 纯工具 | 执行固定指令,无上下文 | 操作员 | 计算器、命令行 |
| L1 | 辅助驾驶 | 工作流助手 | 固定脚本自动化 | 操作员 | RPA、Excel 宏 |
| L2 | 部分自动驾驶 | 任务助手 | 单点任务自主,需节点确认 | 监督者/决策者 | 早期智能音箱 |
| L3 | 有条件自动驾驶 | 垂直领域专家 | 特定领域全流程自主,边界求助 | 后备方案 | Devin、Claude Code |
| L3.5 | — | 有记忆的专家 | L3 + 跨 session 记忆,但仍被动触发 | 后备方案 | Claude Code + bypassPermissions + 本地文件 |
| L4 | 高度自动驾驶 | 全能管家 | 跨领域复杂任务自主,主动运转 | 目标设定者 | — |
| L4.5 | — | 进化中的管家 | L4 + 用户指令驱动的动态工具生成 | 目标设定者 | OpenClaw |
| L5 | 完全自动驾驶 | 数字生命体 | 通用问题解决,自我进化 | 共存者 | 理论目标 |
如何定位你的 Agent
用这三个问题快速判断你的系统处于哪个级别:
问题 1:任务中途,Agent 需要向用户确认几次?
多次确认 → L2
偶尔确认(遇到边界)→ L3
几乎不确认 → L4+
问题 2:遇到没有预设处理方案的情况,Agent 会怎么做?
直接失败/报错 → L1
停下来问用户 → L2-L3
自己想办法解决 → L4+
问题 3:Agent 有没有跨任务的记忆?
没有,每次对话从零开始 → L2 及以下
有,但只在特定领域内有效 → L3
有,跨领域、跨时间都有效 → L4+
实践建议:大多数团队当前构建的系统在 L2-L3 之间。不要急于跳到 L4,先把 L3 做扎实——让 Agent 在它擅长的领域内真正可靠,比让它在所有领域都"差不多能用"更有价值。
🗺️ 不同级别的技术栈映射表
知道自己在哪个级别之后,下一步是选对工具。每个级别的核心技术组件、关键挑战和可参考的开源项目:
各级别技术栈
| 级别 | 核心技术组件 | 关键挑战 | 开源参考项目 |
|---|---|---|---|
| L2 | LLM API + Prompt Template + Search/Tool API | 工具调用准确率、错误处理 | LangChain, LlamaIndex |
| L3 | ReAct Loop + Tool Definition + Local File Context + 权限控制 | 多步规划成功率、边界识别 | Claude Code, LangGraph, AutoGPT |
| L3.5 | L3 + 跨 Session 持久化文件 / SQLite + bypassPermissions | 记忆一致性、上下文膨胀 | Claude Code + MEMORY.md |
| L4.5 | Long-term Memory (Vector DB / SQLite) + 跨应用 API 抽象 + 任务队列 + Skill 封装系统 | 记忆检索准确率、跨应用冲突解决 | OpenClaw, MemGPT |
| L5 | 元认知模块 + 沙箱环境 + 记忆代谢算法 + Periodic Reflection Agent | 自主判断何时进化、遗忘机制设计 | 暂无成熟方案 |
演进路径上的关键跨越
| 跨越 | 需要新增的技术 | 核心难点 |
|---|---|---|
| L2 → L3 | ReAct/CoT 规划模块、工具调用框架、短期记忆管理 | 规划成功率、错误恢复 |
| L3 → L4 | 持久记忆向量库、跨应用 API 抽象、任务队列、主动触发机制 | 记忆检索准确率、冲突解决 |
| L4 → L5 | 元认知模块、沙箱代码执行环境、记忆代谢算法、意图推断引擎 | 自主判断何时进化、遗忘机制 |
常见问题 FAQ
Q: ChatGPT 是哪个级别?
A: 取决于使用方式。裸用 ChatGPT 对话是 L2;配合 Code Interpreter 做数据分析接近 L3;配合 Memory 和 Actions 在特定场景下可以达到 L3.5——有跨 session 记忆,但仍缺乏主动性和跨领域协调。
Q: 哪个跨越最难?
A: L4→L5。L3→L4 有清晰的工程路径(加记忆、加主动触发、加跨应用集成),OpenClaw 已经证明可行。但 L4→L5 需要的"自主进化"和"意图推断触发"目前没有成熟的架构方案,是真正的未知领域。
Q: 分级是固定的吗?同一个 Agent 能在不同场景下处于不同级别?
A: 是的。一个 Agent 在它擅长的领域可能是 L3,在陌生领域可能退化到 L2。这正是为什么"垂直领域专家"是 L3 的典型形态——它在特定赛道上是 L3,但不是全能的。
Q: 提升 Agent 级别,主要靠更好的模型还是更好的架构?
A: 主要靠架构,模型是基础但不是瓶颈:
- L2 → L3:架构(工具调用、规划循环、错误恢复)
- L3 → L4:架构(持久记忆、跨应用集成、主动触发机制)
- L4 → L5:架构(元认知、记忆代谢、意图推断)——目前没有清晰路径
OpenClaw 从 L4 到 L4.5 的跨越,靠的是 Skill 封装系统这个架构创新,而不是换了更强的模型。
Q: 这个分级和 Anthropic、OpenAI 的 Agent 分级有什么关系?
A: 各家公司有自己的内部分级框架,但核心逻辑相似——都在衡量"自主性程度"。本文的框架借鉴自动驾驶标准,增加了 L3.5 和 L4.5 两个中间级别,更贴近当前产品的实际状态。
🔬 三款产品横向对比
| 工具 | 级别 | 记忆 | 主动性 | 跨领域 | 动态工具生成 |
|---|---|---|---|---|---|
| Claude Code | L3 | ❌ | ❌ | ❌ | ❌ |
| Claude Code + bypassPermissions + 本地文件 | L3.5 | ✅ | ❌ | ❌ | ❌ |
| OpenClaw | L4.5 | ✅ | ✅ | ✅ | ✅(用户驱动) |
L3→L4 的三道门槛是记忆、主动性、跨领域;L4→L5 的关键一跳是自主进化——从"用户告诉它进化"到"它自己决定进化"。
📝 结语
自动驾驶用了 20 年从 L0 走到 L3 的商业落地,AI Agent 的演进速度可能更快,但面临的挑战并不更少。
分级框架的价值不在于给系统贴标签,而在于帮你看清楚当前在哪、下一步需要什么。
L0-L1:工具层 → 解决"能不能自动化"的问题
L2-L3:助手层 → 解决"能不能理解意图"的问题
L4-L5:自主层 → 解决"能不能独立存在"的问题
大多数团队现在处于 L2-L3 的过渡地带。这里有足够多的工程挑战值得深耕,也有足够清晰的路径可以前进。
参考资源:
- SAE J3016 自动驾驶分级标准
- 国家《汽车驾驶自动化分级》标准