一 什么是Agent
简单来说: LLM(大语言模型)是“大脑”,而Agent(智能体)是拥有这个“大脑”的“整个智能体”。
-
Agent (智能体) :就像是一个完整的机器人,而这个专家(LLM)就是它的大脑。
-
这个机器人不仅有大脑,还有眼睛、耳朵、手和脚(这些就是工具 Tools,如搜索引擎、API、计算器)。
-
它可以根据大脑的指令,主动去搜索信息、执行任务,然后把这些结果反馈给大脑进行下一步思考。
LLM vs RAG vs Agent
| 特性 | LLM (大语言模型) | RAG (检索增强生成) | Agent (智能体) |
|---|---|---|---|
| 本质是什么 | 一个基础模型 (Model) | 一种技术框架 (Framework) | 一个自主系统 (System) |
| 核心功能 | 文本生成与理解。根据输入序列预测下一个词。 | 知识检索与整合。从外部知识源查找信息并提供给LLM生成答案。 | 决策与执行。规划、调用工具、循环执行以完成复杂目标。 |
| 如何工作 | 输入提示词 (Prompt) -> 输出文本 (Text) | 输入问题 -> 检索相关知识 -> 增强提示词 -> LLM生成答案 | 思考 -> 行动(调用工具)-> 观察结果 -> 循环直至完成 |
| 知识来源 | 静态的、预训练的参数化知识(存在截止日期)。 | 静态的、指定的外部知识库(如公司文档、数据库)。 | 动态的、实时的。通过工具(如搜索引擎、API)获取最新信息和执行操作。 |
| 主要优势 | 强大的语言能力和世界知识,无需微调即可完成多种任务。 | 克服LLM的“幻觉”问题,提供基于事实的、可溯源的答案。 | 能够处理复杂、多步骤的开放世界任务,超越纯文本交互。 |
| 关键限制 | 知识可能过时;会产生“幻觉”;无法处理私有数据。 | 性能严重依赖检索质量;知识库更新有延迟;只能“回答”,不能“执行”。 | 设计复杂;执行速度可能较慢(多步调用);成本和可靠性管理挑战大。 |
| 依赖关系 | 是RAG和Agent的核心引擎。 | 构建于LLM之上,并为其扩展了知识获取能力。 | 构建于LLM之上,并为其扩展了工具使用和规划能力。可以包含RAG。 |
| 典型比喻 | 一位学识渊博但足不出户的专家(大脑)。 | 一位配备了最新档案库的专家(大脑+参考资料)。 | 一个完整的机器人,专家是它的大脑,它还有手有脚可以行动(大脑+工具+计划)。 |
| 简单例子 | “写一首关于春天的诗。” | “根据我们2024年的产品手册,XX产品的特点是什么?” | “帮我查一下今天天气,如果下雨就发邮件提醒我带伞。” |
Coze 中 Agent 能力的表现形式
| 智能体 (Agent) 核心能力 | 在 Coze 中的表现形式 | 具体解释和示例 |
|---|---|---|
| 1. 规划 (Planning) | LLM 自主决策 | Coze的机器人使用大模型(如GPT-4)作为大脑,这个大脑本身就具备分解任务和规划的能力。你不需要写代码,只需用自然语言描述任务,LLM会自行决定步骤。例: 你让机器人“写一篇关于AI的博客并发布”,它会自己规划出“1. 生成大纲 2. 撰写内容 3. 调用发布工具”等步骤。 |
| 2. 工具使用 (Tool Use) | 插件 & 工作流 & 知识库 | 这是Coze实现Agent能力的核心。你为机器人安装的每一个“插件”、创建的每一个“工作流”、添加的每一个“知识库”,都是你为这个Agent配备的“工具”(Tools)。 例: 安装了「网页搜索」插件,Agent就有了“浏览互联网”的能力;创建了一个“发送邮件”工作流,Agent就有了“操作邮箱”的能力。 |
| 3. 记忆 (Memory) | 数据库 & 变量 | • 长期记忆: 通过「数据库」插件,Agent可以存储和读取用户的历史数据(如用户的偏好、历史记录)。 • 会话记忆: 通过「变量」功能,Agent可以在一次对话流程中记住关键信息。 |
| 4. 自主迭代 (ReAct) | 多步骤运行 & 循环 | 在「工作流」中,你可以通过设置循环和条件判断来实现自主迭代。Agent(LLM大脑)可以根据上一步工具执行的结果,决定下一步做什么,直到任务完成或条件满足。 |
利用agent技术让AI像人类一样拆解任务并逐一完成
二 Agent 如何提升准确性
1.1 更可控于是就会更准
-
用工作流去控制整个 Agent 完成任务的具体步骤,结果就会更可控
-
某个步骤LLM 做的任务,可能出错的就让大模型自己纠错,或者增加一个节点做检测(例如: 答案评分未超过90分,则重新生成, 5次还没有出现90分, 则给出5次中评分最高的答案)
-
如果实在不好检测,那就设计一个能让LLM 犯错再自省的过程
-
无论如何,中间产生的数据,是帮助我们提升最重要的抓手
-
现阶段的水平固然重要,是否有进化能力更重要
例如用户提问
- 先拿用户问题去检索一遍知识库,
- 检索当前问题和知识库最相似的一个问题关联的优秀答案,
- 将这些优秀案例作为prompt
1.2 Agent怎么设计
- 不要从手里有什么开始设计
- 要从用户会问什么问题开始设计
案例: 外卖骑手面试
- 有外卖骑手问答知识库
- 有北京各个站点的经纬度信息excel
五道口附近有面试站点么?
思路
1 通过提示词, 分析出城市及地区
2 通过地区及插件转换出当前提问提取的经纬度
3 通过大模型/程序员生成代码, 筛选出当前经纬度, 最近的3公里内的站点
4 返回出检索后的站点
三 思维链(Chain Of Thought)
2.1 链式思维是什么
模型执行任务时,通过输出一系列中间推理过程文字,模拟人类推理过程。
问:如果把我们正在学的课程,所有的直播回放都转成文字,然后用来做RAG,应该怎么切片?
答:每5分钟切成一片。
问:如果把我们正在学的课程,所有的直播回放都转成文字,然后用来做RAG,应该怎么切片?
答:课程里面的内容属于教学内容,教学内容一节课一般是45-60分钟,一节课里一般会有2-3个重要板块,平均每个板块15-20分钟、3-5个知识点,也就是平均每个知识点3-5分钟,我们可能平均3-5分钟切片一个片段比较好,严谨一点的话,我们可以让 GPT 处理一下知识点的段落分割。
ps: 思维链: 说人话就是思考中的心路历程, 先思考在给结果