前置:我的理解
- AI Agent循环框架:
- Plan - Execute - Observation - reflect
- 大模型调用工具实现:
- 也就是说,大模型本身不具备直接调用工具的能力,它只能给出指导:
- 告诉agent调用什么工具和参数
- agent调用工具的结果给大模型,它来评估结果是否满足预期
- 其实就是用json告诉大模型工具名,参数,返回值等,
- 大模型给出调用哪个工具的名字+参数,
- 然后我们根据大模型给出的规范的json来获得调用的工具名+参数,
- 然后我们的agent自己调用工具,调用后,把得到的结果按照一定的格式,给大模型,让大模型评估是否完成任务,或者不达预期,这一步就是:观察
- 根据大模型给出的评估结果,我门确定是否继续调用工具(继续loop),还是结束任务,并返回结果给大模型
- 上下文累积
- plan:
- 让大模型给出指导,分解任务list, 按照要求的格式输出task-list
- 然后,根据task-list,累积上下文,让大模型给出task-excute的指示,我们根据指示,执行task,并反馈工具执行结果给大模型,大模型来观察和评估,给出是否进行下一步还是当前任务失败,要根据当前任务需要重复思考调整指示
一、认知架构框架
-
CoALA框架
基于语言模型(LLM)设计,强调感知、学习、推理和决策的认知循环,通过短期记忆(工作记忆)和三种长期记忆(情景记忆、语义记忆、程序记忆)实现信息处理与决策优化。 -
谷歌白皮书框架
提出**模型(Model)+工具(Tools)+编排层(Orchestration)**的三层架构:
• 模型:作为决策核心,支持思维链(CoT)、思维树(ToT)等推理技术。
• 工具:通过API、函数和数据存储连接外部系统,扩展知识边界。
• 编排层:整合推理框架(如ReAct)指导决策,支持多轮交互与动态规划。
二、设计框架
-
Lilian Weng框架
提出LLM + 规划 + 记忆 + 工具的通用架构:
• 规划:任务分解与反思改进,支持复杂任务拆解。
• 记忆:短期记忆(上下文缓存)与长期记忆(向量存储)结合。
• 工具:调用外部API扩展模型能力。 -
ReAct框架
通过思考-行动-观察-反馈循环实现动态决策,支持多步骤任务执行与错误处理。
三、工程实现框架
-
开源框架
• CrewAI:支持多代理协作与角色分工,适用于客服、数据处理等场景。
• AutoGen:集成Semantic Kernel,提供企业级多代理协调能力。
• LangGraph:基于图的工作流引擎,支持复杂代理交互与可视化调试。
• Phidata:预置模板与多模态支持,适合快速构建生产级代理。 -
工具链集成框架
• LangChain:通用LLM代理工具链,支持向量数据库、API调用等。
• Auto-GPT:基于GPT-4的自主任务执行框架,支持无人值守自动化。
四、选型建议
• 通用场景:优先选择LangChain或谷歌白皮书框架。
• 多代理协作:CrewAI或AutoGen更优。
• 知识库驱动:LlamaIndex或Haystack。
• 企业级部署:Phidata或Semantic Kernel集成方案。
更多框架细节可参考具体网页。