课程开篇:你好,未来的AI Agent架构师!
同学们好!欢迎来到《AI Agent核心架构与演进》课程。
在开始之前,我们先建立一个核心心智模型。请把大语言模型(LLM)想象成一个极其聪明、但没有手脚、也没有特定工作经验的实习生。他知识渊博(通晓互联网),但如果你直接跟他说“帮我搞定那个项目”,他会一脸茫然。
我们的课程,就是学习如何一步步**“带教”**这位天才实习生,让他从一个只能聊天的“书呆子”,成长为能独当一面的超级助理。这个“带教”过程,分为三大阶段:
- 向外长手(给他工具):让他能接触和操作外部世界。
- 向内调脑(教他方法):让他能更清晰地思考和沟通。
- 自主运转(给他目标):让他能独立规划并完成复杂任务。
现在,让我们正式开始第一阶段的学习。
阶段一:向外长手,连接世界 (Giving the Apprentice Tools)
课程目标
理解LLM Agent如何突破文本限制,与真实世界的数据和系统进行交互。
1. Function Calling / Tool Usage (为实习生配备“电话”和“计算器”)
核心思想
授权并指导LLM在需要时,调用我们预先定义好的外部工具(代码函数/API),以获取实时信息或执行确定性任务。
为什么需要它?
我们的实习生(LLM)有两大天生缺陷:
- 信息过时:他的知识停留在训练结束的那一刻,不知道今天的天气。
- 计算不可靠:他做数学题靠的是“感觉”(概率),而不是真的会算。
234 * 567的结果他很可能会“编”错。
Tool Usage就是解决这些问题的完美方案。
它是如何工作的?
这是一个严谨的“指令-执行-反馈”闭环:
- 人类指令 (User): “北京今天天气怎么样,适合穿短袖吗?”
- LLM思考与决策: LLM分析指令,发现自己不知道实时天气,但它记得自己有个“工具”叫
getWeather(city)。于是,它不直接回答,而是生成一个结构化的JSON指令:{"tool_name": "getWeather", "arguments": {"city": "北京"}}。 - 你的代码 (Java): 你的程序作为“中介”,捕获这个JSON。
- 解析
tool_name,找到对应的WeatherTool.getWeather("北京")方法。 - 执行该Java方法,得到真实的返回结果,例如:
"{\"temperature\": 28, \"condition\": \"晴\"}"。
- 解析
- 结果反馈给LLM: 你的程序将这个真实的天气结果,连同原始问题,再次发送给LLM,并提问:“这是你刚才要的数据,现在请回答用户最初的问题。”
- LLM总结回答: LLM看到真实数据后,充满自信地回答:“北京今天28度,天气晴朗,非常适合穿短袖。”
市场案例分析
案例: OpenAI GPTs的Actions功能 分析: 这就是
Function Calling最完美的商业化落地。用户通过图形界面上传一个OpenAPI规范文件,就相当于为GPT“注册”了一堆Java方法。GPT在对话中决定调用哪个API(哪个方法),并生成精确的JSON,OpenAI的后台负责执行这个调用并将结果返回,整个流程与我们上面的代码逻辑完全一致。
阶段二:向内调脑,优化沟通 (Teaching the Apprentice to Think)
课程目标
学习如何通过优化与LLM的沟通方式(Prompt),来提升其思考质量、输出格式的稳定性和任务拆解能力。
1. Prompt Engineering (教实习生“如何写报告”和“如何思考”)
核心思想
Prompt不是简单地提问,而是通过角色扮演、提供范例、指令约束、要求思考过程等技巧,精确地引导LLM的“思维”走向我们期望的方向。
为什么需要它?
直接问实习生:“分析一下市场”,他可能给你一段空泛的废话。但如果你说:“请扮演一位资深市场分析师,按照PEST模型,从政治、经济、社会、技术四个方面分析市场,并以Markdown列表格式输出”,他给出的答案质量将天差地ye。
它是如何工作的?
核心逻辑在于在你的输入中提供足够丰富的“上下文”和“约束”。
- Zero-Shot (零样本): 直接下指令。
"总结一下这段文字"。 - Few-Shot (少样本): 给他看几个例子。
"将句子转为反义疑问句。例如:'他很快' -> '他很快,不是吗?'。现在转换:'天气很好' -> ?" - Chain of Thought (CoT, 思想链): 要求他“想一步,说一步”。这是最强大的技巧之一!
"计算一个半径为5的圆的面积,请一步步思考并写下你的步骤,最后给出答案。"
2. Skill / Flow (将思考过程标准化为“SOP”)
核心思想
- Skill (技能): 将一个优秀的、可复用的Prompt模板,封装成一个独立的函数/模块。
- Flow (工作流): 将多个
Skill和Tool像流水线一样串联起来,解决一个更复杂的复合型任务。
为什么需要它?
你不会每次都手把手教实习生如何写周报。你会给他一个“周报模板”(Skill),并告诉他完成周报需要“先找产品经理要数据(Tool),再用周报模板(Skill),最后发邮件(Tool)”这样一个流程(Flow)。这实现了能力的复用和任务的自动化编排。
市场案例分析
案例: LangChain框架 分析: LangChain的核心就是
Flow(在LangChain中称为Chain)。它将LLM、PromptTemplate(我们的Skill)、Tool等组件,像链条一样串联起来。开发者不再需要手动管理每一步的输入输出,而是定义一个执行链,由框架自动完成数据的传递和执行,极大地提高了开发效率。
阶段三:自主运转,循环驱动 (Giving the Apprentice a Goal)
课程目标
让Agent拥有自主思考、规划、执行、反思的能力,能够仅凭一个高层目标,独立完成整个任务。
1. ReAct (Reason + Act) (教实习生“边想边做,边看边调”)
核心思想
打破“一次性问答”模式,让LLM进入一个**“思考 -> 行动 -> 观察”**的循环。每一步LLM都会先“自言自语”地分析情况(Reason),然后决定下一步干什么(Act)。
它是如何工作的?
想象实习生解决一个未知问题:“查一下苹果公司CEO的母校是哪所大学?”
- 初始目标: 找到苹果CEO的母校。
- 循环 1:
- Reason (思考): “我首先需要知道苹果的CEO是谁。”
- Act (行动): 调用工具
search("Apple CEO")。 - Observation (观察): 工具返回 “Tim Cook”。
- 循环 2:
- Reason (思考): “好的,CEO是Tim Cook。现在我需要查他的母校。”
- Act (行动): 调用工具
search("Tim Cook education")。 - Observation (观察): 工具返回 “Auburn University”。
- 循环 3:
- Reason (思考): “我已经找到了最终答案,任务完成。”
- Act (行动):
finish("苹果公司CEO的母校是奥本大学。")。
2. Plan-and-Execute (教实习生“先做计划,再分步执行”)
核心思想
对于长任务,先让LLM生成一个宏观的步骤计划(Plan),然后逐一执行(Execute)每个步骤。这是一种**“战略先行”**的模式。
区别于ReAct
ReAct是反应式的,像在丛林里探路,走一步看一步,适合探索性任务。Plan-and-Execute是规划式的,像在城市里按地图导航,适合目标明确的复杂任务。
3. Reflexion (教实习生“复盘与反思”)
核心思想
在Agent执行失败后,增加一个“反思”环节。让LLM分析失败的原因,并形成一条“经验教训”。这条“教训”将在下一次尝试时,作为重要参考信息加入到Prompt中,从而避免重复犯错。
它是如何工作的?
- 首次尝试: Agent尝试写一段代码,但测试运行失败。
- 反思(Reflect): 启动一个特殊的
ReflexionAgent。它的Prompt是:“你上次尝试写代码失败了,这是你的代码和错误日志。请分析一下失败的根本原因,并给出一个不超过50字的改进建议。” LLM可能会输出:“失败原因是空指针异常,下次必须在使用对象前进行非空检查。” - 记忆(Memory): 将这条“经验教训”存入一个短期记忆库。
- 再次尝试: 再次执行任务,但这次的Prompt中加入了额外信息:“请注意以下过往经验:'失败原因是空指针异常,下次必须在使用对象前进行非空检查'。”
市场案例分析
案例: Devin (by Cognition Labs) 分析: Devin的惊人表现很大程度上归功于其先进的自主循环系统,它深度融合了
Plan-and-Execute和Reflexion。它不仅能制定详细的开发计划,更关键的是,当它编写的代码遇到编译错误或测试失败时,它能像人类程序员一样停下来,阅读错误日志,自我反思问题出在哪里(“哦,我忘了安装这个依赖”或“这个API用法不对”),然后基于这个反思去修正自己的下一步行动。这使其具备了强大的、自主的软件工程能力。
课程总结
今天,我们系统地学习了如何将一个“天才实习生”(LLM)培养成一个强大的AI Agent。
- 我们通过**
Tool Usage给了他手脚**,让他能与世界互动。 - 我们通过**
Prompt Engineering和Flow教会了他方法论**,让他沟通和思考更高效。 - 我们通过**
ReAct、Plan-and-Execute和Reflexion赋予了他自主意识**,让他能独立地规划、执行和修正,最终完成复杂目标。
这三条路径相辅相成,共同构成了现代AI Agent的架构核心。希望同学们能以今天的课程为基石,动手实践,打造出属于你们自己的、强大的AI Agent!下课!