AI Agent保姆级教程 | 从0~1构建一个属于你的AI Agent

0 阅读13分钟

今天,我想教你从零构建一个 AI Agent(入门教程)

到现在为止,还没有一门完整的教程,能让任何人,包括你在内——从零开始,真正做出一个 AI Agent。所以我想试着把这件事做好图片

01

Agent 如何运作

搞懂这部分特别重要。要是你连它的原理都不清楚,就没法判断自己到底用不用得上一个 Agent……所以咱们直接说重点——所有 Agent 都离不开一个核心循环,不管是什么类型的,本质都一样:用户输入 → LLM 思考 → LLM 做决定(要么直接回应你,要么调用工具)→ 要是调用了工具,就先执行,再把结果反馈回去 → 重复这个过程简单拆解一下:

  • LLM 就相当于它的“大脑”,负责琢磨、推理事儿;
  • 工具就是它的“双手”,专门干具体活的,比如算个数、搜个网页、读个文件、写个文档啥的;
  • 记忆就像个“记事本”,记着之前发生过的所有内容,方便后续衔接。

不管你用的是 LangGraph、CrewAI、Anthropic SDK 还是 OpenAI Agents SDK,这些框架说白了就是把这个核心循环打包好了,让你用着更方便,本质上没任何变化。

增强型 LLM

普通的 LLM 很简单,你输一段文字,它就输出一段文字。而增强型 LLM,就是在这个基础上,多了三种实用能力:工具(Tools):就是模型能调用的各种功能,比如计算器、数据库、API、文件操作这些。Anthropic 和 OpenAI 都是用 JSON Schema 来开放工具接口的;其中 Anthropic 用的是 input_schema,OpenAI 则是把函数装在带 parameters 的 function 对象里。检索(Retrieval):能从外面的数据源里找相关信息,比如搜索引擎、本地文档、向量数据库,想要啥就拉啥。记忆(Memory):通过保存之前的对话记录,或者用其他能长期存东西的方式,让它在和你多次聊天、互动中,记住之前说过的内容,不会聊到一半就忘。

工作流 vs. 真正的 Agent

咱们选方案的时候,一定要分清工作流(Workflow)和真正的 Agent 到底不一样在哪——这一点特别关键。图片

02

五种核心工作流模式

跟你说句实在的,大多数问题根本不用搞那种完全自主的Agent,就能解决。下面这五种模式,是Anthropic总结出来的,现在用得特别广,基本上能覆盖咱们平时遇到的大部分场景。每种模式,都得靠增强型LLM来支撑。

模式一:提示词链(Prompt Chaining)

简单说就是:把一个任务拆成一步一步的,按顺序来做。每一次调用LLM,都处理上一步得出的结果。步骤和步骤之间,还能加一些程序化的“质量检查”,来验证结果对不对。什么时候用呢?就是当这个任务能清清楚楚拆成固定的小任务时。这么做是用速度换准确性——每一次调用LLM都更简单,最后得到的结果也更靠谱。举个例子:先写一段营销文案,再翻译成好几种语言;或者先列个大纲,检查一下关键内容有没有漏,再写完整的文档。

模式二:路由(Routing)

简单说就是:先给输入的内容分个类,再把它转到对应的专门处理器里去。每个处理器,都有自己优化好的提示词。什么时候用?就是不同类型的输入,需要用完全不一样的方式处理的时候。比如客服的工单分流,就是最典型的用法。

模式三:并行化(Parallelisation)

简单说就是:同时调用多个LLM来处理任务。主要分两种方式:分块(Sectioning):把一个任务拆成几个独立的小任务,同时处理投票(Voting):同一个任务,多运行几次,把结果汇总起来,让结论更有把握什么时候用?小任务之间互不影响的时候(用分块);或者遇到关键决策,需要达成共识的时候(用投票)。

模式四:编排者-工作者(Orchestrator-Workers)

简单说就是:有一个核心的LLM当“编排者”,它会动态地把任务拆解开,再把小任务分配给各个“工作者”LLM。和并行化不一样的是,这些小任务不是提前定好的,而是编排者在运行的时候,根据情况临时决定的。什么时候用?就是那些没法提前知道任务结构的复杂活儿。比如跨多个文件的代码生成、研究任务、写报告这些。

模式五:评估者-优化者(Evaluator-Optimiser)

简单说就是:一个LLM先生成结果,另一个LLM来评估这个结果,还会给出修改建议。如果评估没通过,就把建议反馈回去,重新生成,直到符合质量要求为止。什么时候用?就是有明确的评估标准,而且反复优化能带来实实在在好处的时候。比如翻译、写代码、写文章这些任务。

03

构建你的AGENT

这才是你来看这篇文章的真正目的……不绕弯子,直接上干货:怎么把“我想要一个能做XYZ的Agent”,变成真的能用的东西?最简单的思路,就这几步:

  1. 把你要做的任务写下来
  2. 想清楚它需要用到哪些工具
  3. 明确告诉模型该怎么做事
  4. 用5个真实的例子测试一下
  5. 只有测试失败了,再增加复杂程度

最简单的心智模型

在构建Agent之前,先把这四个问题想明白、答清楚:

  1. 目标是什么?Agent最后应该给出什么东西?
  2. 它需要哪些信息?是需要上网搜、查文件、找数据库、看电子表格、用CRM,还是只需要用户说的话?
  3. 它能做哪些操作?只能回答问题?能上网搜索?能编辑文件?能发邮件?能写代码?能调用自定义函数?
  4. 它必须遵守哪些规矩?比如语气、格式、限制、安全规则,不确定的时候该怎么处理,还有“好的输出”到底是什么标准。

只要你能把这四个问题答清楚,通常一天之内就能做出第一版Agent。

新手友好的Agent设计公式

Agent = 角色 + 目标 + 工具 + 规则 + 输出格式

五种新手推荐Agent类型

如果你是新手,别一上来就搞什么多Agent集群,先从下面这五种里选一个入手:

  1. 研究型Agent:用来收集信息,然后汇总整理好
  2. 内容型Agent:用来写东西、改东西、总结内容、转换内容格式
  3. 工作流型Agent:用来执行那些可以重复做的业务流程
  4. 个人知识型Agent:用来根据你的文档,回答你提出的问题
  5. 操作型Agent:用来在特定环境里执行具体操作

Anthropic:新手构建第一个Agent的最简思路

Anthropic的Agent工具,特别适合你希望模型使用工具、在特定环境里操作的场景。Claude Code在2025年2月推出,之后Claude Code SDK在2025年9月改名为Claude Agent SDK。2026年3月,GitHub上的最新版本是v0.1.50。

什么时候选Anthropic?

  • 读写和编辑文件
  • 使用Shell命令
  • 搜索网络
  • 使用MCP工具
  • 编程和技术类任务
  • 需要一步一步操作的得力助手

OpenAI:新手构建第一个Agent的最简思路

OpenAI在2025年3月11日推出了Agents SDK,同时发布了Responses API,还有网络搜索、文件搜索、计算机使用等内置工具。2026年3月,Python包openai-agents的版本号是0.13.1。

让Agent真正做你想做的事:自定义清单

  1. 让任务更具体、更聚焦不好的例子:「帮我处理业务问题」好的例子:「把销售通话的内容,总结成一份行动清单」2. 明确输出格式不好的例子:「给我一个答案」好的例子:「返回内容包含:摘要、证据、风险、下一步行动」3. 提供示例告诉模型:“这是3个好的输出例子” / “就按照这种风格来写”4. 只在需要的时候加工具比如改写笔记,就不需要上网搜索;如果答案本身就在提示词里,就不需要访问文件5. 用真实的、杂乱的提示词测试别只测试“请把这个技术问题分类”这种规范的表述,也得测试“我的账号出问题了,一直被扣钱,该怎么办”这种实际场景里的混乱提问

04

使用工具

很多人在这一步都会出错。他们觉得:“工具越多,Agent就越聪明”其实这是错的。正确的应该是:“工具越好,Agent才越聪明”“工具越少,Agent反而越可靠”关于工具,最简单的理解就是:工具就是“AI靠自己的能力,做不到的那些事”举个例子:计算数字、上网搜索、读取文件、发送邮件、查询数据库第一步:先问自己“这件事需要用工具吗?”图片第二步:借助AI完成工具设计第三步:设计逻辑尽量精简劣质工具写法:manage_files(action, file, destination, overwrite, format, permissions)优质工具写法:read_file(path)、write_file(path, content)、delete_file(path)遵循核心原则,一个工具只对应一项具体任务第四步:明确告知Agent工具的使用场景模糊描述:计算器工具清晰描述:遇到所有数学计算需求时调用该工具,不要自行估算运算结果第五步:允许Agent出现故障,针对性优化修复

05

为你的AGENT配置记忆能力

很多人都会把Agent记忆设计得过于繁琐复杂。其实只需要抓住核心逻辑就行:Agent的记忆总共就分为两类1. 短期记忆,也就是对话记忆简单来说,就是整场对话产生的所有内容常规Agent本身就自带这项能力2.长期记忆,也就是外部知识库指的是Agent可以随时调取查阅的各类资料常见形式包含个人笔记、PDF文件、各类文档、数据库等记忆配置提供三种选择选择A:不启用额外记忆,零基础直接上手适配大部分新手用户,能够覆盖七成日常使用场景选择B:保留完整对话记忆主流开发SDK都已内置相关能力,只需保留消息历史记录不重置即可选择C:依托文件搭建记忆,也就是简易RAG通过上传各类文档,搭配文件检索工具就能实现这里提醒一个常见设计误区,不要盲目过度开发。很多人还没确认实际需求,就提前堆砌向量数据库、嵌入模型和各类复杂运行流程,完全没有必要。

06

优化打磨,打造实用好用的AGENT

这一步是决定Agent成品质量的关键,也是拉开差距的核心环节。市面上多数Agent体验感差,问题基本都出在这三点,提示词编写粗糙、缺少完整测试、设定的使用预期脱离实际。第一步:利用AI批量生成测试案例第二步:贴合真实用户场景开展测试低效测试方式,直接下达账单分类这类指令有效测试方式,模拟用户真实口语,比如询问为什么账户会频繁扣款第三步:单次只优化一处问题运行出现异常后,逐一排查问题根源,排查方向包含提示词表述模糊、输出格式不规范、缺少配套工具、运行规则不完善等第四步:借助AI辅助排查Agent运行故障第五步:克制迭代节奏,不要急于叠加多余功能

07

多AGENT协同协作

在搭建多Agent体系这件事上,很容易踩坑走弯路。不少人存在错误认知,觉得部署的Agent数量越多,整体能力就越强。事实并非如此。搭建开发一定要遵循循序渐进的原则,优先打造单Agent基础版本。只有满足对应条件,再考虑新增多个Agent协作,分别是任务可以清晰拆分、单个Agent无法独立完成工作、各个岗位职能差异明显。日常开发里,真正需要用到多Agent协作的场景,只有三种第一,职能技能各不相同比如负责信息调研的Agent,专门负责文案创作的Agent第二,固定的流水线工作流程整体流程按照信息输入、内容分析、文案撰写、结果输出依次推进第三,操作权限存在区分部分Agent仅开放数据查看权限,另一部分Agent拥有操作执行权限最稳妥的协作架构为分层管理模式,用户对接主Agent,主Agent根据实际工作需求,灵活调用其他辅助Agent。

08

内容总结

本篇内容最核心的干货,Agent的底层逻辑并不复杂,真正落地使用时,才会面临各类细节难题。它的核心运行流程,依靠五十行Python代码就能搭建完成。真正决定Agent体验上限的,是工具的合理设计、完善的异常处理机制、全方位的效果评估,还有合理选型的思维。很多场景下,选用提示词链、路由这类简单模式,反而比自主运行的Agent更合适。

分享三条可以直接落地执行的实操建议

第一,从零开始自主搭建Agent吃透底层原生运行逻辑,就能看透各类开发框架的底层原理,不再被动依赖工具。后续排查问题会更高效,挑选开发工具和框架时,判断也会更理性。第二,采用最简方案解决实际问题大部分多步骤工作,依靠提示词链就能搞定。需要先分类再执行操作的工作流,用路由模式就能完美适配。只有需要大模型自主判断运行路径时,再升级为自主Agent架构。第三,前期重点投入工具设计与效果测试合理设计工具名称、补充精准功能描述、完善结构化报错提示,这些优化带来的体验提升,远比更换大模型、切换开发框架效果更好。准备二十组优质测试案例,能排查出大量人工测试难以发现的隐藏问题。吃透这些核心逻辑和实操方法,不管后续行业技术如何迭代变化,你都能轻松适配。掌握以上内容,你就可以独立搭建属于自己的Agent啦~