零基础学 Agent:从 AI 到 Agent,每个概念逐一拆解 第1期

0 阅读10分钟

图片

**大家好,我是AI淇橦学。
**2025 年是 AI 爆发年,2026 年是 AI Agent 爆发年。

这句话在各种地方刷屏。然后 Open Claw 又火了,身边同事开始问我:“到底什么是 Agent?”

说实话,最开始我也一脸懵。

网上的解释要么太技术,满屏 API、架构图、代码示例;要么太笼统,说了半天还是不知道这东西到底能干嘛。

我不想跟风,我就想自己也搞懂。

所以这段时间就断更了

于是花了一段时间,查了好多资料,找了几十篇论文和技术文章,试了十几个工具,终于把这些概念串起来了。更重要的是——我发现,像我这种非技术人员,完全可以不写代码,用 Claude Code、Trae、Codex 这些编程工具,通过自然语言做出自己的 Agent。

这个系列,就是我陪你一起,从零开始,做出你第一个 Agent 的完整记录。


为什么不直接扔给你教程?

我知道,成年人最痛苦的就是学习。

干货满满?好,但看着看着就困了。概念太抽象?好,但看完还是不知道怎么动手。

所以这个系列,我会用同一个工作中会用到的例子贯穿全程——“办公 agent”。

每个概念都落到这个具体场景上,技术细节可能不完善,大家不要太介意,主要就是:

  • 它是什么
  • 和别的东西有什么区别
  • 什么场景分别用哪个

学完你不仅能说清楚概念,更重要的是——你会知道,自己的哪个场景可以用 Agent 解决


AI、LLM、Chatbot、Agent、Workflow……这些词到底是什么关系?

如果你最近才开始关注 AI,大概率被一堆名词搞晕了。它们有时候好像说的是一回事,有时候又完全不同。

我先用一张表帮你建立全局认知:

图片

别急,下面我把每个概念逐一拆清楚。


最基础的 ,AI 是什么?

图片

AI 就是让机器"表现得像在思考"的技术。但这个说法太泛了。

我们现在日常说的"AI",大多数时候指的是深度学习这个分支——通过喂给机器大量数据,让它自己学习规律,而不是靠人工写死规则。

最简单的区分方式是:

  • 传统软件:如果 A 就做 B,程序员把所有规则写死
  • AI:给它足够多的例子,它自己学会规律,碰到没见过的情况也能应对

比如,传统软件处理邮件,需要程序员写清楚"如果标题包含’发票’,就移到’财务’文件夹"。但 AI 不需要你告诉它规则,你给它 1000 封已分类的邮件,它自己学会"哦,原来这类邮件应该放这里"。


LLM 是什么?跟 AI 什么关系?

图片

LLM = Large Language Model,大语言模型。它是 AI 的一个具体类型,专门处理语言——文字的理解和生成。

Claude、GPT-4、Gemini,这些都是 LLM。

它们的训练方式大概是:

  1. 读了海量文字:互联网上的文章、书籍、代码、对话
  2. 学会了语言规律:语法、逻辑、知识、推理方式
  3. 工作原理是"预测下一个词":你给它一段话,它预测接下来最合适的内容

最后一点很重要。

LLM 本质上是在做"概率预测",不是在"真正思考"。这不是在贬低它——这种预测能力已经强到能通过医学考试、写代码、做分析——但你理解了这个,对后面理解 Agent 会很有帮助。


Chatbot 是什么?日常用的 ChatGPT或豆包 算什么?

图片

Chatbot(聊天机器人)是 LLM 最常见的应用形式:把 LLM 包装成一个对话界面,你问它答。

ChatGPT、Claude.ai 豆包等的基础用法,都是 Chatbot。

它的工作模式是:

1你输入 → 它回复 → 你再输入 → 它再回复

就是问答。每次对话相对独立,它不会主动采取行动,不会操作你的文件,不会在对话框之外做任何事情。

用合同场景来说:你把合同模板粘进去,说"帮我填写张三的合同,地址北京朝阳区,金额五万",它会给你一段文字,告诉你每个字段应该填什么。

但它不会打开你的 Word 文件,不会真的把内容填进去,不会保存文件。

它只能"说",不能"做"。


Workflow 是什么?

图片

Workflow(工作流)是另一种思路:不依靠 AI 来决策,而是把多个步骤按照固定顺序串联起来,自动执行。

想象一条流水线:A 做完了触发 B,B 做完了触发 C,每一步都是预先设定好的。coze、n8n、Make等都是做这件事的工具。

Workflow 的优点是稳定、可预测——只要输入格式固定,结果也是固定的。

但它的局限很明显:步骤是写死的,遇到没有预料到的情况就会卡住。

比如同样是处理合同,如果每份合同的格式都完全一样,Workflow 完全够用。但如果合同格式有差异、字段位置不固定、需要根据内容来判断怎么填,Workflow 就不知道该怎么办了。

它缺少  “遇到新情况,自己想出应对方法”  的能力。


那Agent 到底是什么?

图片

这是这篇文章最核心的部分。

Agent(智能体)= AI 大脑  + 自主规划能力+ 工具

把这三个部分拆开来理解:

组成部分是什么在办公 Agent 里的体现
AI 大脑(LLM)负责理解指令、做判断、规划步骤的核心理解你说的"帮我填张三的合同"是什么意思,判断每个字段应该填什么
工具真能执行操作的能力,是 Agent 和 Chatbot 最本质的区别读取文件的工具、写入字段的工具、保存文件的工具——有了这些,它才能真的"动手做"
自主规划拿到目标之后,自己拆解步骤,自己决定下一步收到"批量处理这 10 份合同",自己规划"先列清单→逐个读取→逐个填写→逐个保存→出报告"

用同一个合同场景做对比,感受一下区别:

你说同一句话:“帮我把张三的合同填好”实际发生了什么
ChatGPT(Chatbot)的回应给你一段文字,说"甲方姓名应填张三,联系地址应填北京市朝阳区……" 然后等你自己去填
办公 Agent 的回应① 调用读取工具,打开合同模板,识别出 5 个空白字段 ② 依次调用写入工具,把张三、北京朝阳区、¥50,000 填入对应位置 ③ 调用保存工具,另存为"合同_张三_20250615.docx" ④ 告诉你"完成,已保存到桌面"

一个是"告诉你答案",一个是"帮你把事情做完"。

这个区别就是 Chatbot 和 Agent 最核心的不一样。


一个关键认知,工具调用是怎么回事?

图片

很多人以为 Agent 是"更聪明的 AI",其实不是。

它和 Chatbot 用的往往是同一个 AI 大脑,区别就在于  “有没有调用工具”

这里有一个非常重要的底层认知:

⚠️ 关键认知
AI(LLM)本身不能直接操作任何东西。它只能输出文字。“工具调用"的本质是:AI 输出一段特殊格式的指令说"我要调用 XX 工具”,外部程序读到这段指令,去真正执行操作,再把结果返回给 AI。AI 从头到尾只是在处理文字,真正动手的是程序。

所以准确来说,Agent 的工作方式是这样的:

1234561. AI 大脑收到你的指令,思考"第一步应该做什么"
2. AI 输出:"我需要调用 read_file 工具,读取合同模板.docx"
3. 外部程序读到这句话,真的去打开那个文件,把内容读出来
4. 程序把读取结果返回给 AI:"文件读取成功,发现 5 个空白字段:甲方姓名、地址……"
5. AI 拿到这个结果,继续思考下一步:"好,现在我要写入甲方姓名字段……"
6. 循环这个过程,直到任务完成

理解了这个,你就能理解为什么"工具描述"非常重要——AI 靠的是工具描述来决定调用哪个工具、传什么参数。描述越清晰,Agent 出错的概率越低。


什么时候该用 Agent,什么时候不需要

图片

Agent 强大,但不是所有场景都需要 Agent。用错了反而麻烦。

场景类型适合用什么原因
写一封邮件草稿Chatbot 就够只需要文字生成,不需要操作文件,不需要多步骤
每天自动把固定格式的邮件里的数据存入表格Workflow步骤完全固定,不需要 AI 判断
处理格式不统一的合同,根据内容智能填写Agent需要 AI 理解内容 + 工具操作文件 + 应对格式差异
从几十份历史文档里找和今天问题最相关的Agent(RAG)需要语义理解 + 知识库检索,关键词搜索不够用
把一个长文档翻译成英文Chatbot 或直接调用 API纯文字处理,不需要操作文件系统

一个判断原则:

  • 如果任务只需要"生成文字",Chatbot 就够
  • 如果任务需要"操作文件/系统/外部数据",需要 Workflow
  • 如果操作步骤不固定、需要根据实际情况判断,才需要 Agent

这个系列要带你做什么

前面都是理论。这个系列的方式是:用"做一个桌面端办公 Agent"作为贯穿案例,把每个概念都落到具体实操上。

这个 Agent 的目标是:

  • 有一个知识库,存放你的历史 Word、Excel、PDF 文档
  • 支持导入新文件,Agent 自动读取内容
  • 你用自然语言告诉它要做什么,它完成填写、整理、保存等任务
  • 全程不需要打开文件,不需要手动复制粘贴

最重要的是,这套课程不需要你写代码。

我们用 Claude Code、Trae、Codex 这类编程工具,通过自然语言来驱动代码生成。真正需要训练的能力是:描述清楚需求、拆解任务步骤、验收执行结果,而不是"怎么写 Python"。

课程一共 8 期,每期聚焦一个核心能力:

图片

期数主题你能学会什么
第1期(本期)从 AI 到 Agent 的概念拆解搞清楚 Agent 是什么,和 ChatGPT 有什么区别
第2期明确你的 Agent 要解决什么问题从模糊想法到可执行的需求定义
第3期Agent 的8大核心模块了解一个 Agent 由什么组成,缺了哪个会出问题
第4期工具调用入门让你的 Agent 能真正"动手"操作文件
第5期记忆系统搭建让你的 Agent 能"记住"历史文档和知识
第6期规划能力训练让你的 Agent 能自己拆解任务、多步骤执行
第7期评估与调试当 Agent 出错时,怎么定位问题和优化
第8期完整合跑把前面的模块组装起来,做出一个能真正运行的 Agent

8 期结束时,你会有一个真正可以运行的 Agent 最小mvp原型,它能帮你处理一些真实的工作任务。


学完这期,做一件事

我知道,成年人学习最怕的就是"看懂了,但不知道怎么动手"。

所以每期结束,我都会给把本期的讲义发送给你,后台回复“Agent”


下期预告

第 2 期,我会教你一个方法:如何把"我想用 Agent 做个东西"这种模糊想法,变成清晰可执行的需求。

我会用我自己做 Agent 时的真实案例,带你走一遍从"有个想法"到"知道第一步该干什么"的完整过程。

如果你也想做出自己的第一个 Agent,关注我,我们下期见。

关注公众号「AI淇橦学」,和 AI 一起成长。

有问题或建议?后台留言即可。