过去两年,AI Agent 的讨论已从"能不能跑起来"变成"能不能稳定上线"。早期写 Agent,通常就是 Prompt + LLM + Tool Calling,但到了真实业务里,很快会遇到更复杂的问题:
- Agent 执行到一半失败了,怎么恢复?
- 多个 Agent 怎么协作?
- 每一步调用了什么工具,能不能审计?
- 哪些步骤需要人工确认?
- 长任务怎么保存状态?
所以,选框架不再只是看 GitHub Star,而是要看它是否适合你的业务流程、技术栈和生产环境。
先看结论:一张选型速查表
| 核心需求 | 优先看 | 原因 |
|---|---|---|
| 复杂状态流、分支、循环、暂停恢复、人工审批 | LangGraph | 图结构清晰,状态显式,适合长任务和可恢复流程 |
| 多 Agent 分工协作,比如研究、分析、写作、审核 | CrewAI | 角色、任务、Crew 抽象直观,适合团队协作型 Agent |
| 多 Agent 动态对话、研究实验、代码执行 | AutoGen / AG2 | 对话式多 Agent 灵活,适合探索型任务 |
| 文档问答、知识库、Agentic RAG | LlamaIndex | 数据接入、索引、检索、文档处理能力成熟 |
| 企业搜索、检索增强流水线、传统 NLP Pipeline | Haystack | Pipeline、Document Store、Retriever、Ranker 抽象稳定 |
| .NET / Azure / Microsoft 365 技术栈 | Semantic Kernel | 微软生态集成自然,适合企业 IT 和 Azure 场景 |
| Python 后端,重视类型安全和结构化输出 | Pydantic-AI | 类型校验、依赖注入、结构化输出体验好 |
| TypeScript / Next.js / Vercel 全栈项目 | Mastra | TypeScript 原生,更适合 Web 产品内嵌 Agent |
| 已经深度使用 OpenAI API | OpenAI Agents SDK | Handoff、Tracing、Guardrails、工具调用集成直接 |
| Gemini / Google Cloud / Vertex AI 生态 | Google ADK | Google 生态适配好,支持多语言和企业级部署 |
| 想快速做 Python Agent,并内置 Memory / Knowledge / Runtime | Agno | 轻量,覆盖 Agent、Team、Workflow、Memory、Knowledge、Runtime |
Agent 框架解决什么问题?
很多人第一次接触 Agent 框架,会以为它只是封装了 LLM 调用。其实不是。
一个真正可用的 Agent 系统,至少包含这些部分:
Agent 框架的价值,就是把这些能力组织起来,让开发者不用从零搭一套脆弱的胶水代码。
各框架详解
LangGraph:复杂流程的首选
LangGraph 的核心思路不是"链式调用",而是图。你可以把一个 Agent 流程拆成多个节点(调用模型、调用工具、等待审批、失败重试),再用边把节点连接起来。
最大优势:状态显式、流程可控、支持 checkpoint 恢复。
✅ 适合:企业内部自动化流程、多步骤审批、长任务执行系统
❌ 不适合:只想快速做 Demo、任务流程非常简单
CrewAI:最像"AI 团队"的框架
CrewAI 把不同 Agent 当成一个团队,比如:
- Researcher 负责调研
- Analyst 负责分析
- Writer 负责写作
- Reviewer 负责审核
每个 Agent 有自己的角色、目标和工具,最后由 Crew 统一调度。这类抽象特别适合内容生产、市场分析、竞品研究等天然可拆分角色的任务。
✅ 适合:市场调研、尽调报告、多角色内容生产
❌ 不适合:需要复杂动态状态控制的场景
AutoGen / AG2:实验型多 Agent 对话
AutoGen 的核心是多个 Agent 之间通过消息对话推进任务,更像一个"多 Agent 讨论室",而不是固定工作流。
✅ 适合:多 Agent 研究实验、自动代码执行、模拟专家讨论
❌ 不适合:对生产可控性要求高的场景(需要额外设计)
LlamaIndex:RAG 和知识库场景绕不开
如果核心问题是"让 Agent 用好企业文档",LlamaIndex 是首选。它最强的地方不是多 Agent 编排,而是数据接入、索引、检索和文档处理。
✅ 适合:企业知识库、法律文档分析、研究报告总结、Agentic RAG
Haystack:工程化的 NLP / RAG Pipeline
Haystack 更偏稳定、可测试、可维护的企业搜索和 NLP 流水线,强调组件化(Retriever、Ranker、Generator、Router)。如果要做的是稳定的文档处理系统,而不是高度自治的 Agent,Haystack 会很合适。
✅ 适合:企业搜索、分类摘要系统、可控的 RAG Pipeline
Semantic Kernel:微软生态的自然选择
如果团队主要用 C#、.NET、Azure OpenAI、Microsoft 365,Semantic Kernel 是自然选择——优势不在社区热度,而在与微软生态的深度集成。
✅ 适合:.NET 企业应用、Azure OpenAI 项目、Microsoft 365 内部助手
Pydantic-AI:结构化输出友好
很多生产问题不是模型不会回答,而是输出不稳定——今天输出 JSON,明天输出 Markdown,下游系统就崩了。Pydantic-AI 用类型系统和数据校验约束 Agent 输出,解决的正是这个问题。
✅ 适合:Python 后端、FastAPI 项目、信息抽取、API 集成型 Agent
Mastra:TypeScript 全栈团队的选择
大量团队的产品栈是 TypeScript、Next.js、Vercel,Mastra 就是面向这类团队的 Agent 框架,提供 agents、workflows、RAG、evals 等能力,可直接集成进 Web 产品。
✅ 适合:Next.js 产品、Vercel 部署、TypeScript 全栈团队
OpenAI Agents SDK:OpenAI 用户的直接路线
已深度使用 OpenAI API 的团队,选择 Agents SDK 最省事——工具调用集成自然,支持 Agent 之间 Handoff,内置 Tracing 和 Guardrails,Python / TypeScript 都支持。
✅ 适合:工具型 Agent、客服/助手类应用、需要 Tracing 的产品
Google ADK:Gemini / Google Cloud 生态路线
Google Agent Development Kit 面向 Gemini、Vertex AI 和 Google Cloud 生态,同时强调 model-agnostic。基础设施已在 Google Cloud 上的团队,ADK 接入云端能力会比第三方框架更顺畅。
✅ 适合:Gemini 应用、Google Cloud 项目、Vertex AI Agent Engine
Agno:轻量但能力完整的 Python Agent 框架
Agno(原 Phidata)强调轻量、快速,同时内置 Agent、Team、Workflow、Memory、Knowledge、Storage 等能力。适合希望快速上线、但又不想一开始就引入复杂图编排的团队。
✅ 适合:轻量 Python Agent、带 Memory 的助手、小团队快速上线
怎么选?看任务形态
最后:框架只是开始,生产化才是真问题
很多 Agent Demo 看起来惊艳,但上线之后真正难的是:
- 每一步执行是否可追踪?
- Agent 失败后能不能恢复?
- 关键动作是否有人工确认?
- 权限边界和多 Agent 状态如何控制?
- 评估和回归测试怎么做?
所以,2026 年做 Agent,比较现实的架构是:
Agent Framework + Runtime / Platform + Observability + Governance
开发 运行 监控 治理
Agentic AI 已经过了炫技阶段。接下来真正有价值的,不是谁能写出更复杂的 Prompt,而是谁能把 Agent 做成稳定、可控、可维护的工程系统。