AI Agent认知框架

2025-03-05 94 阅读3分钟

前置：我的理解

AI Agent循环框架：
1. Plan - Execute - Observation - reflect
大模型调用工具实现：

也就是说，大模型本身不具备直接调用工具的能力，它只能给出指导：
告诉agent调用什么工具和参数
agent调用工具的结果给大模型，它来评估结果是否满足预期
其实就是用json告诉大模型工具名，参数，返回值等，
- 大模型给出调用哪个工具的名字+参数，
- 然后我们根据大模型给出的规范的json来获得调用的工具名+参数，
- 然后我们的agent自己调用工具，调用后，把得到的结果按照一定的格式，给大模型，让大模型评估是否完成任务，或者不达预期，这一步就是：观察
- 根据大模型给出的评估结果，我门确定是否继续调用工具（继续loop），还是结束任务，并返回结果给大模型

上下文累积
plan：

让大模型给出指导，分解任务list, 按照要求的格式输出task-list
然后，根据task-list，累积上下文，让大模型给出task-excute的指示，我们根据指示，执行task，并反馈工具执行结果给大模型，大模型来观察和评估，给出是否进行下一步还是当前任务失败，要根据当前任务需要重复思考调整指示

一、认知架构框架

CoALA框架
基于语言模型（LLM）设计，强调感知、学习、推理和决策的认知循环，通过短期记忆（工作记忆）和三种长期记忆（情景记忆、语义记忆、程序记忆）实现信息处理与决策优化。
谷歌白皮书框架
提出**模型（Model）+工具（Tools）+编排层（Orchestration）**的三层架构：
• 模型：作为决策核心，支持思维链（CoT）、思维树（ToT）等推理技术。
• 工具：通过API、函数和数据存储连接外部系统，扩展知识边界。
• 编排层：整合推理框架（如ReAct）指导决策，支持多轮交互与动态规划。

二、设计框架

Lilian Weng框架
提出LLM + 规划 + 记忆 + 工具的通用架构：
• 规划：任务分解与反思改进，支持复杂任务拆解。
• 记忆：短期记忆（上下文缓存）与长期记忆（向量存储）结合。
• 工具：调用外部API扩展模型能力。
ReAct框架
通过思考-行动-观察-反馈循环实现动态决策，支持多步骤任务执行与错误处理。

三、工程实现框架

开源框架
• CrewAI：支持多代理协作与角色分工，适用于客服、数据处理等场景。
• AutoGen：集成Semantic Kernel，提供企业级多代理协调能力。
• LangGraph：基于图的工作流引擎，支持复杂代理交互与可视化调试。
• Phidata：预置模板与多模态支持，适合快速构建生产级代理。
工具链集成框架
• LangChain：通用LLM代理工具链，支持向量数据库、API调用等。
• Auto-GPT：基于GPT-4的自主任务执行框架，支持无人值守自动化。

四、选型建议

• 通用场景：优先选择LangChain或谷歌白皮书框架。
• 多代理协作：CrewAI或AutoGen更优。
• 知识库驱动：LlamaIndex或Haystack。
• 企业级部署：Phidata或Semantic Kernel集成方案。

更多框架细节可参考具体网页。