**大家好,我是AI淇橦学。
**2025 年是 AI 爆发年,2026 年是 AI Agent 爆发年。
这句话在各种地方刷屏。然后 Open Claw 又火了,身边同事开始问我:“到底什么是 Agent?”
说实话,最开始我也一脸懵。
网上的解释要么太技术,满屏 API、架构图、代码示例;要么太笼统,说了半天还是不知道这东西到底能干嘛。
我不想跟风,我就想自己也搞懂。
所以这段时间就断更了
于是花了一段时间,查了好多资料,找了几十篇论文和技术文章,试了十几个工具,终于把这些概念串起来了。更重要的是——我发现,像我这种非技术人员,完全可以不写代码,用 Claude Code、Trae、Codex 这些编程工具,通过自然语言做出自己的 Agent。
这个系列,就是我陪你一起,从零开始,做出你第一个 Agent 的完整记录。
为什么不直接扔给你教程?
我知道,成年人最痛苦的就是学习。
干货满满?好,但看着看着就困了。概念太抽象?好,但看完还是不知道怎么动手。
所以这个系列,我会用同一个工作中会用到的例子贯穿全程——“办公 agent”。
每个概念都落到这个具体场景上,技术细节可能不完善,大家不要太介意,主要就是:
- 它是什么
- 和别的东西有什么区别
- 什么场景分别用哪个
学完你不仅能说清楚概念,更重要的是——你会知道,自己的哪个场景可以用 Agent 解决。
AI、LLM、Chatbot、Agent、Workflow……这些词到底是什么关系?
如果你最近才开始关注 AI,大概率被一堆名词搞晕了。它们有时候好像说的是一回事,有时候又完全不同。
我先用一张表帮你建立全局认知:
别急,下面我把每个概念逐一拆清楚。
最基础的 ,AI 是什么?
AI 就是让机器"表现得像在思考"的技术。但这个说法太泛了。
我们现在日常说的"AI",大多数时候指的是深度学习这个分支——通过喂给机器大量数据,让它自己学习规律,而不是靠人工写死规则。
最简单的区分方式是:
- 传统软件:如果 A 就做 B,程序员把所有规则写死
- AI:给它足够多的例子,它自己学会规律,碰到没见过的情况也能应对
比如,传统软件处理邮件,需要程序员写清楚"如果标题包含’发票’,就移到’财务’文件夹"。但 AI 不需要你告诉它规则,你给它 1000 封已分类的邮件,它自己学会"哦,原来这类邮件应该放这里"。
LLM 是什么?跟 AI 什么关系?
LLM = Large Language Model,大语言模型。它是 AI 的一个具体类型,专门处理语言——文字的理解和生成。
Claude、GPT-4、Gemini,这些都是 LLM。
它们的训练方式大概是:
- 读了海量文字:互联网上的文章、书籍、代码、对话
- 学会了语言规律:语法、逻辑、知识、推理方式
- 工作原理是"预测下一个词":你给它一段话,它预测接下来最合适的内容
最后一点很重要。
LLM 本质上是在做"概率预测",不是在"真正思考"。这不是在贬低它——这种预测能力已经强到能通过医学考试、写代码、做分析——但你理解了这个,对后面理解 Agent 会很有帮助。
Chatbot 是什么?日常用的 ChatGPT或豆包 算什么?
Chatbot(聊天机器人)是 LLM 最常见的应用形式:把 LLM 包装成一个对话界面,你问它答。
ChatGPT、Claude.ai 豆包等的基础用法,都是 Chatbot。
它的工作模式是:
1你输入 → 它回复 → 你再输入 → 它再回复
就是问答。每次对话相对独立,它不会主动采取行动,不会操作你的文件,不会在对话框之外做任何事情。
用合同场景来说:你把合同模板粘进去,说"帮我填写张三的合同,地址北京朝阳区,金额五万",它会给你一段文字,告诉你每个字段应该填什么。
但它不会打开你的 Word 文件,不会真的把内容填进去,不会保存文件。
它只能"说",不能"做"。
Workflow 是什么?
Workflow(工作流)是另一种思路:不依靠 AI 来决策,而是把多个步骤按照固定顺序串联起来,自动执行。
想象一条流水线:A 做完了触发 B,B 做完了触发 C,每一步都是预先设定好的。coze、n8n、Make等都是做这件事的工具。
Workflow 的优点是稳定、可预测——只要输入格式固定,结果也是固定的。
但它的局限很明显:步骤是写死的,遇到没有预料到的情况就会卡住。
比如同样是处理合同,如果每份合同的格式都完全一样,Workflow 完全够用。但如果合同格式有差异、字段位置不固定、需要根据内容来判断怎么填,Workflow 就不知道该怎么办了。
它缺少 “遇到新情况,自己想出应对方法” 的能力。
那Agent 到底是什么?
这是这篇文章最核心的部分。
Agent(智能体)= AI 大脑 + 自主规划能力+ 工具
把这三个部分拆开来理解:
| 组成部分 | 是什么 | 在办公 Agent 里的体现 |
|---|---|---|
| AI 大脑(LLM) | 负责理解指令、做判断、规划步骤的核心 | 理解你说的"帮我填张三的合同"是什么意思,判断每个字段应该填什么 |
| 工具 | 真能执行操作的能力,是 Agent 和 Chatbot 最本质的区别 | 读取文件的工具、写入字段的工具、保存文件的工具——有了这些,它才能真的"动手做" |
| 自主规划 | 拿到目标之后,自己拆解步骤,自己决定下一步 | 收到"批量处理这 10 份合同",自己规划"先列清单→逐个读取→逐个填写→逐个保存→出报告" |
用同一个合同场景做对比,感受一下区别:
| 你说同一句话:“帮我把张三的合同填好” | 实际发生了什么 |
|---|---|
| ChatGPT(Chatbot)的回应 | 给你一段文字,说"甲方姓名应填张三,联系地址应填北京市朝阳区……" 然后等你自己去填 |
| 办公 Agent 的回应 | ① 调用读取工具,打开合同模板,识别出 5 个空白字段 ② 依次调用写入工具,把张三、北京朝阳区、¥50,000 填入对应位置 ③ 调用保存工具,另存为"合同_张三_20250615.docx" ④ 告诉你"完成,已保存到桌面" |
一个是"告诉你答案",一个是"帮你把事情做完"。
这个区别就是 Chatbot 和 Agent 最核心的不一样。
一个关键认知,工具调用是怎么回事?
很多人以为 Agent 是"更聪明的 AI",其实不是。
它和 Chatbot 用的往往是同一个 AI 大脑,区别就在于 “有没有调用工具” 。
这里有一个非常重要的底层认知:
⚠️ 关键认知
AI(LLM)本身不能直接操作任何东西。它只能输出文字。“工具调用"的本质是:AI 输出一段特殊格式的指令说"我要调用 XX 工具”,外部程序读到这段指令,去真正执行操作,再把结果返回给 AI。AI 从头到尾只是在处理文字,真正动手的是程序。
所以准确来说,Agent 的工作方式是这样的:
1234561. AI 大脑收到你的指令,思考"第一步应该做什么"
2. AI 输出:"我需要调用 read_file 工具,读取合同模板.docx"
3. 外部程序读到这句话,真的去打开那个文件,把内容读出来
4. 程序把读取结果返回给 AI:"文件读取成功,发现 5 个空白字段:甲方姓名、地址……"
5. AI 拿到这个结果,继续思考下一步:"好,现在我要写入甲方姓名字段……"
6. 循环这个过程,直到任务完成
理解了这个,你就能理解为什么"工具描述"非常重要——AI 靠的是工具描述来决定调用哪个工具、传什么参数。描述越清晰,Agent 出错的概率越低。
什么时候该用 Agent,什么时候不需要
Agent 强大,但不是所有场景都需要 Agent。用错了反而麻烦。
| 场景类型 | 适合用什么 | 原因 |
|---|---|---|
| 写一封邮件草稿 | Chatbot 就够 | 只需要文字生成,不需要操作文件,不需要多步骤 |
| 每天自动把固定格式的邮件里的数据存入表格 | Workflow | 步骤完全固定,不需要 AI 判断 |
| 处理格式不统一的合同,根据内容智能填写 | Agent | 需要 AI 理解内容 + 工具操作文件 + 应对格式差异 |
| 从几十份历史文档里找和今天问题最相关的 | Agent(RAG) | 需要语义理解 + 知识库检索,关键词搜索不够用 |
| 把一个长文档翻译成英文 | Chatbot 或直接调用 API | 纯文字处理,不需要操作文件系统 |
一个判断原则:
- 如果任务只需要"生成文字",Chatbot 就够
- 如果任务需要"操作文件/系统/外部数据",需要 Workflow
- 如果操作步骤不固定、需要根据实际情况判断,才需要 Agent
这个系列要带你做什么
前面都是理论。这个系列的方式是:用"做一个桌面端办公 Agent"作为贯穿案例,把每个概念都落到具体实操上。
这个 Agent 的目标是:
- 有一个知识库,存放你的历史 Word、Excel、PDF 文档
- 支持导入新文件,Agent 自动读取内容
- 你用自然语言告诉它要做什么,它完成填写、整理、保存等任务
- 全程不需要打开文件,不需要手动复制粘贴
最重要的是,这套课程不需要你写代码。
我们用 Claude Code、Trae、Codex 这类编程工具,通过自然语言来驱动代码生成。真正需要训练的能力是:描述清楚需求、拆解任务步骤、验收执行结果,而不是"怎么写 Python"。
课程一共 8 期,每期聚焦一个核心能力:
| 期数 | 主题 | 你能学会什么 |
|---|---|---|
| 第1期(本期) | 从 AI 到 Agent 的概念拆解 | 搞清楚 Agent 是什么,和 ChatGPT 有什么区别 |
| 第2期 | 明确你的 Agent 要解决什么问题 | 从模糊想法到可执行的需求定义 |
| 第3期 | Agent 的8大核心模块 | 了解一个 Agent 由什么组成,缺了哪个会出问题 |
| 第4期 | 工具调用入门 | 让你的 Agent 能真正"动手"操作文件 |
| 第5期 | 记忆系统搭建 | 让你的 Agent 能"记住"历史文档和知识 |
| 第6期 | 规划能力训练 | 让你的 Agent 能自己拆解任务、多步骤执行 |
| 第7期 | 评估与调试 | 当 Agent 出错时,怎么定位问题和优化 |
| 第8期 | 完整合跑 | 把前面的模块组装起来,做出一个能真正运行的 Agent |
8 期结束时,你会有一个真正可以运行的 Agent 最小mvp原型,它能帮你处理一些真实的工作任务。
学完这期,做一件事
我知道,成年人学习最怕的就是"看懂了,但不知道怎么动手"。
所以每期结束,我都会给把本期的讲义发送给你,后台回复“Agent”
下期预告
第 2 期,我会教你一个方法:如何把"我想用 Agent 做个东西"这种模糊想法,变成清晰可执行的需求。
我会用我自己做 Agent 时的真实案例,带你走一遍从"有个想法"到"知道第一步该干什么"的完整过程。
如果你也想做出自己的第一个 Agent,关注我,我们下期见。
关注公众号「AI淇橦学」,和 AI 一起成长。
有问题或建议?后台留言即可。