AI Agent 知识手册

0 阅读4分钟

AI Agent 知识手册

什么是 AI Agent

AI Agent(人工智能代理)是一种能够自主感知环境、做出决策并执行任务的智能软件实体。与传统的 AI 模型不同,Agent 不仅能理解和生成文本,还能主动调用工具、规划任务步骤、记忆对话历史,并根据环境反馈调整行为。

AI Agent 的核心特征包括:

  • 自主性:无需人类持续干预,能独立完成任务
  • 感知能力:能接收和理解环境信息(文本、图像、传感器数据)
  • 决策能力:基于目标制定计划,选择最佳行动方案
  • 行动能力:能够调用工具、执行操作(如搜索、计算、操作 API)
  • 记忆与学习:能记住对话历史,从经验中改进

ReAct 范式

ReAct(Reasoning + Acting)是目前最主流的 Agent 实现范式,由研究人员在 2022 年提出。它将推理与行动相结合,让模型交替进行思考(Reasoning)和行动(Acting),通过语言推理来指导外部工具调用,并将行动结果反馈回推理过程,形成闭环。

ReAct 的工作流程通常为:观察(Observation)→ 思考(Thought)→ 行动(Action)→ 观察...直到得出最终答案。相比纯推理(如 CoT)或纯行动(如 Tool-use),ReAct 能有效减少幻觉,提升在需要多步推理和外部知识交互的任务中的准确性。

LangChain 框架

LangChain 是一个用于开发大语言模型(LLM)应用的开源框架,发布于 2022 年。它提供了标准化的接口,方便将 LLM 与外部数据源、工具连接起来。

LangChain 的核心功能包括:

  • 链(Chains):将多个处理步骤串联起来
  • 工具调用:让 LLM 能调用 API、数据库等外部工具
  • 记忆(Memory):管理对话历史
  • 文档处理:支持 RAG(检索增强生成)
  • Agent 支持:帮助构建 AI Agent

简单来说,LangChain 就像是开发 AI 应用的"乐高积木",让你能快速搭建像 ChatGPT 插件、智能客服、文档问答系统等应用。

RAG 检索增强生成

RAG(Retrieval-Augmented Generation)是一种将信息检索与 LLM 生成相结合的技术。它的核心思想是:在 LLM 回答用户问题之前,先从知识库中检索出相关的信息片段,然后将这些信息作为上下文提供给 LLM,让 LLM 基于检索到的信息生成回答。

RAG 的工作流程:

  1. 将文档分割成小块(Chunking)
  2. 将每个块转换为向量(Embedding)
  3. 将向量存储到向量数据库中
  4. 用户提问时,将问题也转为向量
  5. 在向量数据库中搜索最相似的文档块
  6. 将检索到的文档块作为上下文,连同问题一起交给 LLM
  7. LLM 基于上下文生成回答

RAG 解决了 LLM 的几个核心问题:知识过时(LLM 训练数据有截止日期)、幻觉(LLM 可能编造事实)、不具备内部知识(无法访问企业私有文档)。

Function Calling(工具调用)

Function Calling 是让 LLM 能够调用外部函数/工具的机制。它不是让 LLM 真的去执行代码,而是让 LLM 输出一个结构化的请求,描述它想调用什么函数以及传入什么参数。真正的函数执行由开发者代码完成。

工具调用的流程:

  1. 开发者定义工具(名称、描述、参数结构)
  2. 将工具定义随用户问题一起发给 LLM
  3. LLM 判断是否需要调用工具
  4. 如果需要,LLM 返回工具调用请求(含参数)
  5. 开发者代码执行工具函数
  6. 将执行结果返回给 LLM
  7. LLM 基于结果生成最终回答

提示工程(Prompt Engineering)

提示工程是设计和优化输入提示词的技术,目的是让 LLM 产生更准确、更可靠的输出。核心技术包括:

  • System Prompt:设定 AI 的角色、行为规则和输出格式
  • Few-shot:在 prompt 中给出输入输出示例,让 LLM 学习任务格式
  • Chain-of-Thought(思维链):引导 LLM 逐步推理,减少错误
  • 结构化输出:要求 LLM 以 JSON 等结构化格式返回结果