AI Agent认知框架

94 阅读3分钟

前置:我的理解

  1. AI Agent循环框架:
    1. Plan - Execute - Observation - reflect
  2. 大模型调用工具实现:
  • 也就是说,大模型本身不具备直接调用工具的能力,它只能给出指导:
  • 告诉agent调用什么工具和参数
  • agent调用工具的结果给大模型,它来评估结果是否满足预期
  • 其实就是用json告诉大模型工具名,参数,返回值等,
    • 大模型给出调用哪个工具的名字+参数,
    • 然后我们根据大模型给出的规范的json来获得调用的工具名+参数,
    • 然后我们的agent自己调用工具,调用后,把得到的结果按照一定的格式,给大模型,让大模型评估是否完成任务,或者不达预期,这一步就是:观察
    • 根据大模型给出的评估结果,我门确定是否继续调用工具(继续loop),还是结束任务,并返回结果给大模型
  1. 上下文累积
  2. plan:
  • 让大模型给出指导,分解任务list, 按照要求的格式输出task-list
  • 然后,根据task-list,累积上下文,让大模型给出task-excute的指示,我们根据指示,执行task,并反馈工具执行结果给大模型,大模型来观察和评估,给出是否进行下一步还是当前任务失败,要根据当前任务需要重复思考调整指示

一、认知架构框架

  1. CoALA框架
    基于语言模型(LLM)设计,强调感知、学习、推理和决策的认知循环,通过短期记忆(工作记忆)和三种长期记忆(情景记忆、语义记忆、程序记忆)实现信息处理与决策优化。

  2. 谷歌白皮书框架
    提出**模型(Model)+工具(Tools)+编排层(Orchestration)**的三层架构:
    模型:作为决策核心,支持思维链(CoT)、思维树(ToT)等推理技术。
    工具:通过API、函数和数据存储连接外部系统,扩展知识边界。
    编排层:整合推理框架(如ReAct)指导决策,支持多轮交互与动态规划。


二、设计框架

  1. Lilian Weng框架
    提出LLM + 规划 + 记忆 + 工具的通用架构:
    规划:任务分解与反思改进,支持复杂任务拆解。
    记忆:短期记忆(上下文缓存)与长期记忆(向量存储)结合。
    工具:调用外部API扩展模型能力。

  2. ReAct框架
    通过思考-行动-观察-反馈循环实现动态决策,支持多步骤任务执行与错误处理。


三、工程实现框架

  1. 开源框架
    CrewAI:支持多代理协作与角色分工,适用于客服、数据处理等场景。
    AutoGen:集成Semantic Kernel,提供企业级多代理协调能力。
    LangGraph:基于图的工作流引擎,支持复杂代理交互与可视化调试。
    Phidata:预置模板与多模态支持,适合快速构建生产级代理。

  2. 工具链集成框架
    LangChain:通用LLM代理工具链,支持向量数据库、API调用等。
    Auto-GPT:基于GPT-4的自主任务执行框架,支持无人值守自动化。


四、选型建议

通用场景:优先选择LangChain或谷歌白皮书框架。
多代理协作:CrewAI或AutoGen更优。
知识库驱动:LlamaIndex或Haystack。
企业级部署:Phidata或Semantic Kernel集成方案。

更多框架细节可参考具体网页。