2026年最新Agent学习Roadmap

0 阅读16分钟

最近Claude code,openclaw这种Agent热度居高不下,越来越多的人开始加入Agent的开发队伍,无论是个人SOP自动化还是企业内部自用Agent,都需要你掌握一定的Agent基础知识。

纯靠Vibe coding,你或许会得到一个勉强能用的Agent,但是上下文一多,当上下文腐败(Context Rot)现象出现以后vibe coding出的策略不能够有效解决,多轮对话后发现记忆缺失时又该怎么办?如果从0开始学习Agent,应该学哪些内容?

这些问题最终归结为一个问题——怎么系统性地学 Agent 开发?


一、Agent 和普通 LLM 应用,差在哪里

对于小白来说,很多人可能遇到问题会去Chatgpt,豆包之类的官网去寻求答案,这就是LLM最经典的应用场景,根据内置的训练数据,回答用户的问题,但是如果你想让它帮你自动下载文件,自动查看某个网站的内容,甚至是自动帮你写代码执行并测试呢?网页版的能力就难以达到用户的需求。

而Agent则不同,Agent的核心在于自主行动

如果说普通的LLM是一个博学的顾问,坐在办公室里等你来问问题,那Agent就是一个能走出去亲自动手的执行者——它不仅能告诉你"这个文件应该这样下载",它会直接打开浏览器,找到链接,下载下来,检查内容,再告诉你"好了,我已经帮你处理完了"。

实现这一切的关键,是Agent拥有了**工具调用(Tool Use)**的能力。你可以把工具理解成Agent的"手脚",常见的工具包括:

  • 搜索引擎:让Agent能实时获取网络上的最新信息,而不局限于训练数据的截止日期
  • 代码执行器:让Agent能写出代码之后直接运行,看到报错,再修改,再运行,完成完整的开发闭环
  • 文件系统:读取、写入、移动你电脑里的文件
  • 浏览器控制:自动打开网页,点击按钮,填写表单,抓取内容
  • 外部API:发邮件、查天气、下订单……几乎任何你平时在手机上点点点能做到的事

除了工具,Agent还有另一个普通LLM不具备的特质——规划与反思能力。面对一个复杂任务,Agent不会一股脑地给你一个答案,而是会把大目标拆解成一步一步的子任务,执行一步,观察结果,再决定下一步怎么走。如果中途出了问题,它能自己发现、自己纠错,而不是等你来告诉它"你做错了"。

这个"执行→观察→思考→再执行"的循环,在业内通常被称为ReAct 循环,是Agent区别于普通对话模型的本质所在。

所以简单来说:LLM负责"想",Agent负责"做"。对于普通用户而言,这意味着你终于可以把一件事情完整地交给AI,而不只是得到一份"参考答案"。


二、打基础:你真正需要哪些前置知识

做Agent应用开发,我们不需要关注LLM过于底层的知识,诸如机器学习、深度学习、微调、Transformer等大模型层面的知识,我们只需要了解一些Agent开发绕不开的概念,一些细节性的内容可以在开发过程中随时询问AI去补充。

LLM 基础概念

不需要手推 Attention 公式,但这几个概念必须清楚:

  • Context Window:决定你能往 Prompt 里塞多少内容,直接影响 Agent 的记忆设计
  • Token 计费逻辑:影响成本控制策略,生产环境绕不开
  • Temperature:控制输出的随机性,Agent 场景通常要低温度,要稳定
  • 幻觉的成因:知道模型为什么会瞎编,才能设计防御机制

Prompt Engineering

Prompt Engineering这个词相信很多人都不陌生,但它是一个被严重低估的领域。很多人觉得,不就是跟模型对话吗?随便说说不就行了,系统性地去学感觉没什么必要。但现实是:同一个模型,不同的人用,效果可以天差地别。模型的能力上限是固定的,而你能召唤出多少,完全取决于你给的Prompt质量。


举个最直接的例子——同样是让模型帮你写一封催款邮件:❌ 坏的Prompt:

"帮我写封催款邮件"

模型不知道你的身份、对方是谁、欠了多少钱、关系是否敏感、语气要强硬还是委婉……它只能瞎猜,给你一封放之四海而皆准的模板,你收到之后大概率还要大改。✅ 好的Prompt:

"我是一家设计公司的负责人,客户王总已经拖欠了3万元设计费超过60天。我们合作关系一直不错,我不想撕破脸,但必须让对方重视这件事。请帮我写一封措辞礼貌但态度明确的催款邮件,字数控制在200字以内。"

同样的模型,第二个Prompt给出的结果可以直接发出去,第一个可能需要你改半小时。


这背后的逻辑其实很简单:模型本质上是在做"补全"——你给的上下文越清晰,它脑补的空间就越小,跑偏的概率就越低。一个好的Prompt,通常会明确以下几件事:角色:你是谁,模型应该扮演什么角色任务:你到底要什么,目标是什么约束:格式、长度、语气、不能做什么背景:让模型理解你所处的具体情境Prompt Engineering研究的,正是如何系统性地把这些要素组合好,从而稳定地从模型中拿到高质量的输出。它不是玄学,是一套可以学习、可以复用的方法论——而掌握它的人,使用的明明是同一个模型,却像在用一个完全不同的工具。


三、核心架构:Agent 的四块积木

Agent 系统不管看起来多复杂,底层都由四个模块组成。搞懂这四块,任何 Agent 框架你都能快速上手——因为万变不离其宗,换汤不换药。


  1. Profile(角色定义)——Agent 的身份证在你启动一个 Agent 之前,你得先告诉它"你是谁、能做什么、不能做什么"。这件事的载体,就是我们常说的 System Prompt。你可以把 Profile 理解成给新员工入职时的那份岗位说明书——写得清楚,它就知道自己的职责边界,不该管的事不乱插手;写得模糊,它就容易在不该自作主张的地方乱跑,出了问题你都不知道从哪查起。

  1. Memory(记忆系统) ——Agent 的大脑存储Agent 的记忆不是一个整体,而是分层的。理解这四层,你才能明白为什么有些 Agent "记性好",有些对话两轮就忘了前面说过什么。
类型实现方式说明
感知记忆当前上下文正在处理的输入,相当于"眼前的事"
短期记忆对话历史多轮对话的上下文保留
长期记忆向量数据库(RAG)跨会话的知识存储,"下次还记得你"
情景记忆历史经验存储过去任务的成功/失败经验积累

大多数 Agent 项目的核心工作,都在短期 + 长期记忆上做文章。这里有一个始终绕不开的物理限制——Context Window 的容量是有限的,你塞进去的内容越多,成本越高,模型也越容易"注意力涣散"。怎么管理好这个窗口,是每个 Agent 工程师的必修课。


  1. Planning(规划) ——Agent 的大脑如果说工具是 Agent 的手脚,那 Planning 就是它的大脑,负责回答一个核心问题:拿到一个复杂任务,怎么一步一步把它做完?目前主流的规划策略有三种:Task Decomposition:把大任务拆成小任务,逐个击破。就像你写论文,不会上来就开始打字,而是先列大纲ReAct Loop:思考 → 行动 → 观察结果 → 再思考,循环推进。这是目前最主流的范式,后面会单独展开讲Plan-and-Execute:先制定完整计划,再逐步执行。适合任务边界清晰、不需要中途动态调整的场景

  1. Action / Tool Use(工具调用) ——Agent 的手脚一个 Agent 能做到什么,上限完全取决于它手里有什么工具。常见的工具类型大概分这几类:信息获取:搜索引擎、数据库查询、读本地文件代码执行:Python 解释器、Terminal,让 Agent 真正能"动手算"外部服务:发邮件、写日历、调第三方 API子 Agent:把另一个 Agent 当作工具来调用——这是多 Agent 系统的基础,后面会细讲这里有一个容易被忽视的细节:工具的描述写得好不好,直接影响模型能不能正确选择和调用它。工具再强,描述写得一团糟,模型也不知道该在什么时候用它——这跟招了一个能力很强的员工,但从来不告诉他什么情况该做什么,本质上是一回事。

四、框架选型:各有分工,别一口气全学


刚入门 Agent 开发,很多人容易犯一个错误——看到市面上一堆框架,LangChain、LlamaIndex、LangGraph、AutoGen、CrewAI……恨不得全部学一遍,结果每个都会一点,每个都没搞透,真正要做项目的时候反而不知道该用哪个。正确的姿势是:先搞清楚每个框架是为了解决什么问题而生的,再按需取用。


LangChain——入门首选,生态天花板

如果你什么都不懂,就从 LangChain 开始。它是目前生态最完整、社区最活跃的 Agent 框架,几乎你能想到的功能——接模型、调工具、管记忆、做 RAG——它都有现成的组件,拿来即用。它的价值不在于"它做得最好",而在于它覆盖面最广,试错成本最低。做原型验证、跑通一个最小可用的 Demo,LangChain 是效率最高的选择。但它的问题也很明显:封装太重,抽象层太多,出了 bug 你可能不知道错在哪;灵活性上也有限制,一旦你的需求稍微复杂,就会开始跟框架"搏斗"。所以 LangChain 适合用来入门和快速验证想法,不建议在生产级的复杂系统里过度依赖它。


LlamaIndex——专心把 RAG 这件事做到极致

如果你的需求是让 Agent 能够读懂你的文档、检索你的知识库、回答基于私有数据的问题,那 LlamaIndex 就是为你量身定制的。它的核心专长是 RAG(检索增强生成)——怎么把文档切块、怎么做向量化、怎么建索引、怎么在检索时提高准确率。这些事情 LangChain 也能做,但 LlamaIndex 做得更精细、更深入。典型使用场景:公司内部知识库问答、合同文档分析、技术文档检索助手。只要你的项目核心是"让模型读懂你的数据",LlamaIndex 优先。


LangGraph——当你需要真正"可控"的 Agent

LangChain 做复杂任务时有个根本性的问题:流程不透明,你很难精确控制 Agent 在每一步该做什么、不该做什么,出了问题也难以调试。LangGraph 解决的就是这个问题。它把 Agent 的执行流程建模成一张状态机图——每个节点是一个执行步骤,边是流转条件,整个执行过程清晰可见、可以精确干预。这意味着什么?你可以做到:某一步失败了自动走备用分支、人工审核通过再继续执行、复杂的多步任务中途暂停再恢复……这些在 LangChain 里很难优雅实现的需求,LangGraph 天生就支持。适合场景:流程复杂、需要精确控制每个节点、对稳定性要求高的生产级 Agent。上手曲线比 LangChain 陡,但一旦理解了状态机的思维方式,你会发现它才是做严肃 Agent 项目的正确姿势。


AutoGen & CrewAI——多个 Agent 协作的世界

前面三个框架本质上都是在做单 Agent的事,而 AutoGen 和 CrewAI 进入的是另一个维度:让多个 Agent 彼此通信、相互协作,共同完成一个任务。两者的侧重点略有不同:AutoGen更底层,核心是解决"Agent 之间怎么对话"的问题。你可以定义多个角色,让它们在一个对话环境里互相提问、互相纠错、共同推进。适合需要高度定制化多 Agent 通信逻辑的场景。CrewAI则更上层,思路更接近"模拟一个团队"——你定义一个研究员、一个写手、一个审核员,给他们分配任务,让他们像真实团队一样分工协作。上手更快,适合快速搭建角色分工明确的多 Agent 流水线。这两个框架相对小众,不建议一开始就学,等你把前面三个玩熟了、真正遇到"单个 Agent 搞不定"的需求时,再来研究不迟。


五、实战路径:学一个模块,做一个 Demo

理论学完不动手,两周之后你会发现自己什么都记得,但什么都做不出来。最高效的学习方式只有一个:每学完一个模块,立刻用一个真实的项目把它跑通。做出来的东西,才是真正属于你的东西。


阶段 1:Prompt Engineering——让模型老老实实按格式输出

很多人学完 Prompt Engineering,验证方式是"感觉模型回答得好多了"。这太虚了。这个阶段的 Demo,要有一个硬指标来检验你学没学到位。目标:做一个能稳定输出结构化 JSON 的 Agent。输入一段自然语言,比如"帮我记录一下,明天下午三点跟张总有个会议,地点在公司三楼",Agent 输出的不是一段话,而是一个格式规范、字段完整的 JSON:

{  "title": "与张总会议",  "date": "2025-03-27",  "time": "15:00",  "location": "公司三楼"}

听起来简单,但要做到稳定输出——换一百种说法,格式都不乱、字段都不丢——你才会真正理解 Prompt 的约束设计、Few-shot 示例的作用,以及为什么输出格式的描述要写得那么死板。


阶段 2:Tool Use——让 Agent 真正能"查"能"算"

光靠训练数据,模型回答不了"苹果今天的股价是多少",也算不准"我的持仓现在值多少钱"。这个阶段要做的,就是给 Agent 装上手脚。目标:给 Agent 接入搜索工具 + 计算器,让它能回答需要实时数据 + 计算的复合问题。比如用户问:"苹果最新股价乘以我持有的 200 股,现在总市值是多少?"一个装好工具的 Agent 会这样处理:先调用搜索工具拿到实时股价,再调用计算器把结果算出来,最后把完整答案返回给用户——全程不需要你介入。做完这个 Demo,你会理解工具描述怎么写模型才能正确选用、多工具并存时的调用逻辑是怎么跑的,以及 ReAct Loop 在实际代码里长什么样。这些东西看文档永远是抽象的,自己跑一遍就全清楚了。


阶段 3:Memory + RAG——让 Agent 有记忆,有知识

到了这个阶段,你要解决的是两个相关但不同的问题:Agent 怎么记住用户说过的话,以及怎么读懂你给它的文档。目标:接入向量数据库,上传一份产品文档,做一个有长期记忆的问答 Agent。具体来说,你要实现的效果是:用户上一个会话里问过"我们的产品支持哪些支付方式",这一个会话里接着问"刚才那个问题,能展开说说微信支付的接入流程吗"——Agent 能接得上,不会一脸茫然地说"请问您指的是哪个问题"。同时,它回答产品相关问题时,依据的是你上传的真实文档,而不是模型自己编出来的内容。这个 Demo 做下来,RAG 的完整链路、向量数据库的基本用法、短期记忆和长期记忆怎么协同——这些概念会从纸面上的名词,变成你真正理解的东西。


阶段 4:Multi-Agent——让一群 Agent 协作干一件大事

前三个阶段都是单个 Agent 在工作,这个阶段要上一个量级:多个 Agent 各司其职,协作完成一个单靠一个 Agent 搞不定的复杂任务。目标:用 LangGraph 实现 Supervisor + Worker 架构,做一个自动搜集资料、分析、输出报告的多 Agent 系统。架构大概是这样的:一个 Supervisor Agent 负责拆解任务、分配工作、汇总结果;底下挂着几个 Worker Agent,一个专门负责联网搜集资料,一个负责对资料做分析和提炼,一个负责把结论整理成结构化报告。用户只需要输入一个主题,比如"帮我调研一下国内 AI 编程工具的市场现状",整个流水线自动跑完,最后给你一份可以直接用的报告。做完这个 Demo,你对 Multi-Agent 的理解就不再停留在"多个 Agent 互相说话"这个层面,而是真正清楚任务怎么拆、状态怎么流转、Agent 之间的边界怎么划——这也是目前业界最主流的复杂 Agent 工程架构。


四个阶段,四个 Demo,每一个都能独立运行、独立展示。学完之后你会发现,你不只是"懂了 Agent",而是手里有四个真实做过的东西——这才是跟只看过视频和文章的人之间,真正的差距所在。


最后说一句

Agent 开发现在还是一个"早期市场"——框架在快速迭代,最佳实践还没完全沉淀,大量工程问题等待被解决。

这意味着:现在入场,成本低,红利高。

不需要等"学完所有理论"再动手。跑起来一个 Demo,遇到真实问题,带着问题回来学——这才是这个领域最快的学习路径。