说说 AI Agent基本概念

6 阅读5分钟

欢迎评论区指正补充

概念/术语简短解释
LLM (大语言模型)深度学习模型,能够理解和生成自然语言,是Agent的“大脑”。
Prompt (提示词)向LLM提供的输入文本,用于指导模型生成期望的输出。
System Prompt设置LLM行为、角色和约束的系统级指令,通常固定不变。
Temperature控制LLM输出随机性的参数,值越低越确定,越高越多样。
Top-p (核采样)只从累积概率超过p的token中采样,控制生成多样性。
Context Window (上下文窗口)LLM单次处理的最大token数量,决定了可记忆的信息量。
Fine-tuning (微调)在特定数据集上继续训练预训练模型,使其适应特定任务。
Token文本处理的基本单位,可以是单词或子词,LLM按token计费。
Agent (智能体)基于LLM,能自主规划、记忆、调用工具完成复杂任务的程序。
Tool (工具)Agent可调用的外部函数或API,如查询天气、发送邮件。
Function Calling (函数调用)LLM输出结构化函数调用指令的能力,使Agent能调用工具。
Tool CallingFunction Calling的泛化,指Agent调用任意预定义工具。
Plugin (插件)为LLM/Agent扩展能力的模块,如浏览器插件、代码解释器。
Memory (记忆)Agent存储和回忆信息的能力,分短期和长期。
短期记忆同一会话内的对话历史,通常通过缓存上下文实现。
长期记忆跨会话持久化信息,通常用向量数据库存储和检索。
实体记忆记录对话中提及的实体(如人名、地点)及其属性。
情景记忆记录过去发生的事件或交互的细节。
Planning (规划)Agent拆解复杂任务、决定行动步骤的推理过程。
ReAct推理+行动交替的模式,Agent思考→行动→观察结果→再思考。
CoT (思维链)引导LLM逐步推理,输出中间步骤,提升复杂问题解决能力。
ToT (思维树)探索多条推理路径并评估选择,类似搜索树。
Plan-and-Execute先生成完整计划,再逐步执行,适合结构化任务。
Self-askAgent自己提问并回答,引导自我推理。
RAG (检索增强生成)从外部知识库检索相关信息,作为上下文辅助LLM生成答案。
Embedding (嵌入)将文本转换为数值向量,用于相似性计算。
Vector Database (向量数据库)存储和检索向量嵌入的数据库,如Chroma、Pinecone。
Chunking (分块)将长文档切分成小片段,便于嵌入和检索。
Retriever (检索器)根据查询从知识库中检索相关文档片段的组件。
RAG Fusion多查询检索并融合结果,提升RAG效果。
HyDE (假设文档嵌入)先用LLM生成假设答案,再用该答案的嵌入检索,提高召回率。
Multi-Agent (多智能体)多个Agent协作完成任务,每个有专门角色。
Orchestrator (协调器)管理多个Agent工作流的中心组件,分配任务、收集结果。
Supervisor (监督者)在多智能体系统中监控和指导其他Agent行为的Agent。
Collaboration (协作)Agent之间通过消息传递共享信息、共同完成任务。
LangChain最流行的AI Agent开发框架,提供模块化组件(链、工具、记忆)。
LangGraph基于LangChain的状态化多Agent编排框架,支持复杂流程图。
AutoGen微软开发的多智能体框架,强调可定制对话和自动化。
CrewAI角色扮演驱动的多智能体框架,Agent以“角色”协作。
Semantic Kernel微软的企业级SDK,支持C#、Python、Java,集成规划、记忆。
OpenAI Agents SDK官方推出的轻量级多智能体编排框架,设计简洁。
Dify开源LLM应用开发平台,支持可视化编排RAG、Agent工作流。
Coze (扣子)字节跳动的低代码AI Bot开发平台,集成丰富插件。
MCP (模型上下文协议)开放标准协议,标准化Agent与数据源/工具的连接方式。
Agentic Workflow以Agent为核心的自动化工作流,强调自主决策和动态调整。
Self-reflectionAgent对自身输出进行反思、纠错和改进的机制。
Evaluation (评估)衡量Agent性能的过程,包括准确性、效率、安全性等。
LangSmithLangChain的调试、监控和评估平台,支持链路追踪。
Trace (链路追踪)记录Agent每一步的思考、行动和观察,用于调试。
Guardrails (护栏)限制Agent行为的规则或过滤机制,防止有害输出。
Hallucination (幻觉)LLM生成不真实或虚构信息的现象,RAG可缓解。
Toolformer让LLM自学使用工具的模型架构,通过微调集成工具调用。
ReAct Agent基于ReAct模式的Agent,交替思考和行动。
Conversational Agent专注于多轮对话的Agent,强调记忆和上下文理解。
Task-Oriented Agent面向特定任务(如订票、客服)的Agent,注重工具调用。
Autonomous Agent高度自主、能长期运行并自我优化的Agent,如AutoGPT。
Persona (角色)Agent扮演的角色设定,影响其语言风格和行为模式。
Few-shot Prompting在Prompt中提供少量示例,引导模型理解任务。
Zero-shot Prompting不提供示例,直接给出指令让模型执行。
Chain (链)LangChain中组合多个LLM调用或工具的序列。
Agent ExecutorLangChain中负责运行Agent循环的组件。
Parser (解析器)将LLM输出解析为结构化数据(如JSON)的组件。
Output Validator验证LLM输出是否符合预期格式或内容。
Retry MechanismAgent在工具调用失败时的重试或降级策略。
Human-in-the-loop在Agent流程中引入人工确认或干预的机制。
Cost Management控制LLM API调用成本的技术,如缓存、模型选择。
Streaming (流式)逐步返回LLM生成的内容,提升用户体验。