在和一个女孩恋爱之前,要做的第一件事永远是:
认识这个女孩。
所以在开发 AI Agent之前,我们首先要认识 AI Agent,明确它是什么,它的价值在哪里。只有这样,我们才能选择合适的技术路线。
一、AI Agent 是什么?
一句话:AI Agent 是一个以 LLM 为大脑,能够通过逻辑推理(Reasoning),自主规划步骤并调用工具(Tools),以解决非固定流程任务的系统。
什么,还有点抽象?
那我们说人话:
AI Agent 就是:能帮你干活儿的AI系统。
这里的关键其实是“能干活”这三个字,这是把AI Agent那些只能和你聊天的 LLM 大语言模型区分开的关键所在。
举几个例子:
例子一:数据分析
假设:你是一个销售经理,手里有一个 100MB 的 Excel 表格,你想知道“上个月哪个产品的利润率最高”。
- LLM 对话能力:“你可以用 Excel 的透视表功能,或者写一段 Python 代码来分析……”(它给你方法,但你要自己动手)。
- AI Agent:
- 理解意图,“计算利润率”并“排序”。
- 规划路径:
- 先读取文件前几行,理解表头。
- 编写 Python 代码计算 (销售额-成本)/销售额。
- 绘制柱状图并生成结论。
- 调用工具:
- 调用 Python 解释器(沙盒环境),真正执行了代码,生成了图表文件。
- 记忆存储:
- 它记住了你刚刚上传的 CSV 文件结构,后续你问“那这个产品的库存呢?”它不需要你重新上传文件。

例子二:AI编程
假设:你想写一个贪吃蛇游戏,但你不懂代码。
- LLM 对话能力:它会吐给你一段代码。当你运行报错时,你得把报错信息复制回给它,它再改,反反复复。(它是被动的)。
- AI Agent: 你只需要说一句“帮我写个贪吃蛇”,然后就可以去喝咖啡了。
- 理解意图,生成游戏的核心逻辑代码。
- 规划路径:
- 写代码。
- 主动运行 python snake.py。
- 观察到报错了(比如少了一个库)。
- 自主决定调用 pip install pygame 安装库。
- 再次运行,直到成功。
- 调用工具:
- 它有权限访问你的终端 (Terminal) 和 文件编辑器。它直接在你的文件夹里创建了 snake.py。
- 记忆存储:
- 它知道刚才修过哪些 bug,不会在同一个坑里跌倒两次。

二、AI Agent 的架构
由于 Agent 远远还没有像 Spring全家桶统治web开发那样的最佳实践,所以目前所有的架构分享都只能是基于市面上大部分产品形成的共识总结的,只能作为参考。
但目前认可度最高的结构是这样的:
- 大脑:LLM
- 规划:Planning
- 记忆:Memory
- 工具:Tool Use

不要把 Agent 想得太玄乎,它其实就是一个公式:
Agent(智能体) = 大脑 (LLM) + 双手 (Tools) + 记忆 (Memory) + 规划 (Planning)
-
大脑:负责逻辑推理(比如 DeepSeek, GPT-4)。
-
双手:负责与现实世界交互(搜索、写文件、发邮件)。
-
记忆:负责记住用户偏好和私有数据(数据库、向量库)。
-
规划:负责拆解复杂任务(先查天气,再决定带不带伞)。
我们的学习路径,就是逐一攻克这四个模块的过程。
学习目标一:掌控LLM,结构化输出
让 AI 说“机器话”,而不是“人话”。
很多新手只会在聊天框里问 AI 问题。但程序无法处理 AI 随心所欲的回答。 Agent 开发的第一课,是强迫 AI 输出结构化数据(JSON)。只有输出 JSON,你的 Python 代码才能接住数据,进行下一步逻辑处理。
-
核心技能:
-
Prompt Engineering(角色设定、System Prompt)。
-
JSON Mode:强制模型输出 JSON。
-
Pydantic:Python 的数据验证库(Agent 开发神器)。
-
-
实战小目标:信息提取器
-
输入:一段乱七八糟的用户评论(“App 太卡了,我是 iPhone 13,给一星”)。
-
输出:{"sentiment": "negative", "device": "iPhone 13", "issue": "performance"}。
-

学习目标二:能力调用(Function Calling)
不再是让 AI 回答问题,而是让 AI 决定调用哪个函数。
在这个阶段,不是 AI 自己去联网,而是 AI 告诉你:“请帮我运行 Google Search 函数,关键词是 Python”,然后你帮它运行,把结果喂给它。
-
核心技能:
-
Tools Schema:如何给 AI 写“工具说明书”。
-
Tool Choice:处理 AI 的调用请求。
-
API 集成:通过 Python requests 库连接外部世界。
-
-
实战小目标:智能文件整理助手
-
用户指令:“把所有图片放到 Images 文件夹,文档放到 Docs 文件夹。”
-
Agent 行为:自主调用 Python 的 os 和 shutil 库,真实地操作你的电脑文件。
-

学习目标三:构建记忆 (RAG & Vector DB)
给 AI 外挂一个“硬盘”。
大模型的上下文窗口有限,且记不住你的私有数据(比如你的个人日记、公司文档)。我们需要用 RAG(检索增强生成) 技术,让 Agent 拥有长期记忆。
-
核心技能:
-
Embeddings:把文字变成向量(一串数字)。
-
Vector DB:向量数据库(如 ChromaDB)。
-
Chunking:如何把长文档切片。
-
-
实战小目标:私人知识库问答 Bot
-
把你的“技术学习笔记”或“游戏设计草稿”喂给 Agent。
-
你可以问它:“我上周关于战斗系统的设计思路是什么?”它能精准引用你的文档回答。
-

学习目标四:思考与行动的循环
从“单步操作”进化到“自主解决复杂问题”。
如果用户问“分析一下 2026 年的游戏市场趋势”,这不是调用一个工具能解决的。Agent 需要学会:搜索 -> 阅读 -> 思考 -> 再搜索 -> 总结。这就需要 ReAct(Reasoning + Acting) 模式。
-
核心技能:
-
ReAct Loop:思考-行动-观察的循环。
-
LangGraph:学习如何用图(Graph)的概念来管理复杂的 Agent 状态。
-
-
实战小目标:全自动研报生成器
- 输入一个课题,Agent 自动上网搜索多篇资料,阅读并汇总,最后生成一篇有理有据的 Markdown 报告保存到本地。

学习目标五:多Agent系统
目标:指挥一群AI干好一个活儿。
当任务极其复杂时,我们需要多个 Agent 分工协作。比如一个负责通过 API 写代码,另一个负责运行测试,测试不通过就打回重写。
-
核心技能:
-
Role Playing:通过 Prompt 隔离不同 Agent 的职责。
-
Handoffs:任务在不同 Agent 之间的流转。
-
框架应用:CrewAI 或 AutoGen。
-
-
实战小目标:虚拟游戏开发工作室
-
策划 Agent:提出创意。
-
编剧 Agent:完善世界观故事。
-
美术 Agent:生成对应的画面提示词。
-
一键运行,三个 AI 自动开会,给你输出一份完整的游戏设计案。

小节
本文我们明确了AI Agent是什么,它和LLM Chat的区别是什么,它有那些特点,能解决什么问题,是如何架构的。
并且我们拟定了一个五步走的学习目标。
下一步,我们要从头开始:搭建一个主流的AI开发环境。
敬请期待!
