自主决策 Agent 的设计和探索：从系统架构到行业与开源生态全景真正可落地的 Agent 并不依赖“无限自由的智能”，

摘要

“自主决策 Agent”已经从一个偏概念化的说法，逐步演变成一类可工程化的软件系统。它不再只是“能对话的模型”，而是能够围绕目标持续行动：理解任务、拆解问题、选择工具、访问外部系统、执行操作、检查结果、在失败时重试或重规划，并在必要时请求人工确认。

过去一年多里，行业对 Agent 的认识出现了明显变化：大家不再把它理解为“一个会自动做事的大模型”，而是理解为“一个由模型驱动、但受运行时、工具接口、状态管理、评测机制和安全治理共同约束的行动系统”。因此，Agent 的能力上限并不只取决于模型本身，还取决于以下几个关键层面：

目标是否定义清楚；
工具是否可理解、可调用、可恢复；
上下文和记忆是否被正确组织；
执行过程是否可追踪、可评测、可干预；
高风险动作是否被守卫、审批和审计。

也正因为如此，今天的自主决策 Agent 已经形成了比较清晰的技术分层：上层是模型与对话能力，中层是规划、记忆、工具调用与多 Agent 编排，下层是运行时、观测、权限控制和企业系统接入。与此同时，行业方案也开始分化为三类：

模型平台型：OpenAI、Anthropic、Google、Microsoft、AWS、Mistral 等，提供模型、Agent SDK、内建工具、运行时和治理能力。
企业套件型：Salesforce、IBM、Oracle、ServiceNow、SAP 等，把 Agent 深度嵌入 CRM、ITSM、ERP、协同办公和业务流程。
开源编排型：LangGraph、CrewAI、AutoGen、LlamaIndex、PydanticAI、Haystack、Qwen-Agent、Dify、Flowise 等，强调灵活开发、快速实验和生态扩展。

从工程实践看，真正好用的自主决策 Agent 往往不是“最自由”的，而是“自治范围清晰、工具接口稳定、状态闭环完整、安全约束明确”的系统。

1. 什么是“自主决策 Agent”

如果把传统 LLM 应用理解为“输入问题，返回答案”，那么自主决策 Agent 更像“输入目标，系统自己决定接下来应该做什么”。

一个比较实用的定义是：

自主决策 Agent 是一种以大模型为核心，通过规划、工具调用、状态管理和反馈闭环，持续推进目标完成的软件系统。

它通常具备以下能力：

1.1 目标导向

用户给它的不是单次问答，而是一个需要多步完成的目标，例如：

帮我研究某个行业；
帮我整理本周会议并拟定邮件；
帮我分析数据并给出建议；
帮我在若干网站上搜集信息并形成报告；
帮我修复代码仓库中的问题。

1.2 动态决策

它不是机械执行固定流程，而是会根据中间结果决定下一步：

先检索资料还是先看本地文件；
是否要调用浏览器工具；
当前结论是否足够可靠；
是否需要重试、反思、重规划；
是否需要交给更专门的子 Agent。

1.3 工具使用

自主决策 Agent 的本质不是“更会说”，而是“更会做”。典型工具包括：

Web Search / Browser
File Search / 知识库检索
Code Interpreter / 沙盒代码执行
企业应用连接器（邮箱、日历、CRM、工单系统、知识系统等）
自定义 API / 函数调用
MCP Server 暴露的工具与数据源

1.4 状态保持

它需要维护的不只是聊天历史，还包括：

当前任务目标
已完成的步骤
已观察到的中间结果
工具执行轨迹
用户偏好
长短期记忆

1.5 闭环修正

Agent 真正有价值的地方不在“第一次就做对”，而在“做错了还能发现并修正”。因此一个成熟系统通常具备：

自检与结果验证
失败恢复
轨迹回放
人工接管
重规划机制

2. 自主决策 Agent 的核心设计框架

2.1 目标层：把自然语言任务变成可执行契约

真实用户给出的任务往往非常模糊。比如“调研一下”“整理一下”“跟进一下”，对于模型来说都过于宽泛。一个可执行的 Agent 目标，通常要进一步明确：

成功标准是什么；
输出格式是什么；
时间、步数、成本上限是什么；
是否允许访问互联网；
是否允许执行代码；
哪些动作需要人工确认；
哪些数据源和系统可访问。

这一步做得越扎实，后面的规划和执行就越稳。很多企业 Agent 平台之所以强调 schema、tool contract、workflow canvas、approval policy，本质上就是在强化“任务契约化”。

2.2 规划层：先做什么、后做什么、遇错怎么办

规划是 Agent 与普通 RAG/对话系统的分水岭。规划层负责：

将目标拆成可执行子任务；
识别哪些步骤可并行；
选择先检索、先推理还是先行动；
判断是否需要子 Agent；
在中间结果不理想时重排步骤。

从实现方式看，常见有三类：

A. 隐式规划

直接让模型边想边做。优点是简单，适合短任务；缺点是可控性与可调试性差。

B. 显式规划

先输出一份任务计划，再逐步执行。优点是更可审查、可回放、可复用；缺点是前期设计更重。

C. 层级规划

由总控 Agent 负责目标管理，再把子任务分发给专门 Agent。适合复杂任务，但也更容易出现上下文漂移和组织开销。

2.3 工具层：Agent 真正“接触世界”的接口

工具设计是 Agent 工程里最重要、也最容易被低估的一层。

一个高质量工具接口通常具备这些特征：

功能边界清晰；
参数结构化；
返回值结构化；
错误码与异常明确；
最好幂等或可重试；
权限边界清楚；
对模型来说描述足够可理解。

反过来说，很多 Agent 项目失败并不是因为模型不够强，而是因为工具接口设计混乱：一个工具做太多事、参数意义不清、返回文本过长、失败原因模糊、权限过宽，都会让 Agent 很快失控。

2.4 上下文与记忆层：不是越长越好，而是越准越好

Agent 的执行能力在很大程度上取决于“它此刻看到了什么”。因此，行业正在从“prompt engineering”走向“context engineering”。

一个成熟的 Agent 一般至少会管理四类记忆：

工作记忆：当前任务进度、最新观察、临时变量；
情节记忆：过去执行过哪些任务、哪些步骤成功/失败；
语义记忆：用户偏好、业务规则、知识事实；
技能记忆：可复用的操作套路、模板、计划片段。

关键不只是“记住更多”，而是：

何时写入；
写入什么粒度；
何时召回；
何时摘要压缩；
何时丢弃。

2.5 运行时层：Agent 不是一次调用，而是一个任务生命周期

当 Agent 进入长流程、多工具、可暂停/恢复、多用户会话等场景，就离不开 runtime。运行时通常负责：

状态持久化
会话管理
中间产物保存
工具执行编排
失败重试与超时
人工确认节点
轨迹记录与观测
成本与资源控制

这是为什么今天的主流平台越来越强调“Agent Engine”“Agent Runtime”“Session”“Tracing”“Observability”，因为没有这些，Agent 很难进入生产环境。

2.6 反思与重规划层：从“会执行”到“会修正”

Agent 系统的一条重要进化路线，是让它具备某种形式的自我修正能力。例如：

结果校验后发现不一致，回退一步重查；
浏览器操作失败，改用另一条路径；
检索结果冲突，触发二次验证；
代码执行报错，自动读取日志并修补。

这类能力在论文里常被称作 reflection、verbal feedback、self-correction；在工业系统里，往往体现为 judge、critic、retry policy、fallback policy、trajectory scoring 等组件。

2.7 治理层：高自治必须配套高约束

只要 Agent 能发邮件、改日历、写数据库、点网页、跑代码，它就不再是“内容生成器”，而是“行动体”。因此治理必须是默认内建，而不是事后补丁。

核心治理手段包括：

输入输出安全检查
工具调用前后守卫
最小权限原则
敏感动作审批
审计与回放
沙盒执行
身份与访问控制
风险分级策略

3. 自主决策 Agent 的方法论演进

虽然今天行业在谈的是产品和平台，但底层方法论主要来自过去几年的研究路线。

3.1 ReAct：把“推理”和“行动”交织起来

ReAct 的核心价值在于把推理链与工具动作结合：模型不是先想完再做，而是“思考—行动—观察—再思考”。这为今天大量 Agent 的执行循环打下了基础。

3.2 Toolformer：工具使用被视为模型能力的一部分

Toolformer 证明了一个关键事实：模型不只是可以被动接工具，而且可以学会“何时用什么工具”。今天所有函数调用、工具选择和工具路由，本质上都沿着这个方向演进。

3.3 Tree of Thoughts 与 Plan-and-Solve：先规划，再搜索

这条路线强调：复杂问题不该只走一条推理链，而是应该有计划、有分支、有比较。这种思想影响了今天很多“plan -> execute -> verify”的 Agent 系统。

3.4 Reflexion：让系统通过语言反馈改进自己

Reflexion 启发了工业界很多“错误总结”“失败记忆”“经验缓存”的机制。它的重要意义在于：不需要重新训练模型，也能通过结构化反思文本提升后续任务质量。

3.5 Voyager、LLMCompiler、Magentic-One：从单 Agent 到长期任务和多 Agent 编排

这几条路线分别推动了三个方向：

Voyager：长期探索中的技能积累；
LLMCompiler：把计划与并行执行更系统化地组织起来；
Magentic-One：在多 Agent 场景中强调 orchestrator 的价值。

这些研究共同推动行业达成一个共识：Agent 不是“让模型自己飞”，而是“让模型在可观测、可约束、可恢复的结构里行动”。

4. 生产级 Agent 的设计原则

4.1 从简单、可组合的模式开始

很多团队一上来就想做“多角色会议”“AI 团队协作”“自动社会化智能体”，结果往往是复杂度迅速失控。工业实践已经证明：

很多任务单 Agent 就够；
很多复杂度来自工具和状态，而不是角色数量；
过早上多 Agent，常常先引入的是上下文同步问题，而不是能力提升。

4.2 工具少而精，比工具多而乱更重要

一个工具如果定义得足够好，往往胜过十个模糊的工具。开发 Agent 时最应该花时间的地方，往往是工具设计和状态建模，而不是 endlessly 调 prompt。

4.3 上下文工程是 Agent 的主战场

任务越长，上下文越容易膨胀。真正的难点不是模型窗口够不够大，而是：

哪些信息应该进入上下文；
哪些只应进入长期记忆；
哪些需要摘要压缩；
哪些错误经验应该被固化为下次先验。

4.4 必须评测过程，而不是只评测结果

如果只看最终答案，很容易误判系统质量。一个最终正确的答案，可能经历了很多低效、越权、脆弱的步骤；一个最终错误的答案，也可能暴露出某个工具、某段记忆或某类任务模板存在系统性问题。

所以生产评测通常要同时看：

最终结果质量
工具选择是否正确
轨迹是否合理
是否发生循环或无效探索
是否触发不必要的高风险动作
时间、token、成本是否可控

4.5 高风险动作必须有人工兜底

Agent 的最佳形态通常不是“完全自动”，而是“自动化优先 + 高风险动作人工确认”。例如：

发外部邮件前审批；
改数据库前确认；
提交 PR 前 review；
执行真实网页付款操作前二次确认。

5. 行业主流公司方案盘点

下面按平台和生态的方式梳理。

5.1 OpenAI：从 Responses API 到 AgentKit 的完整栈

OpenAI 目前的路线很清楚：

用 Responses API 作为更统一的 agentic primitive；
用 Agents SDK 提供工具、handoff、trace 等编排能力；
提供 web search、file search、computer use 等内建工具；
用 Guardrails 和评测能力补上安全与质量闭环；
再用 AgentKit 往工作流设计、连接器管理、部署优化方向延展。

OpenAI 的优势在于：模型能力强、内建工具齐、产品化速度快。它适合希望快速进入“模型 + 工具 + tracing + 安全”一体化体系的团队。

5.2 Anthropic：强调简单有效、上下文工程与高质量工具使用

Anthropic 在 Agent 领域的影响非常大，主要不只是因为模型本身，而是因为它对“如何构建有效 Agent”给出了非常务实的方法论：

从简单模式开始；
不要盲目迷信复杂框架；
把上下文工程当成一级问题；
在长任务上重视 harness、tool use 和可恢复性；
在高自治场景下强化 computer use 安全。

此外，Anthropic 还是 MCP 的重要推动者之一，对整个 Agent 工具接入生态影响很大。

5.3 Google：ADK、Vertex AI Agent Engine 与 A2A 协议

Google 的 Agent 生态有两个重点：

开发层：ADK

ADK（Agent Development Kit）负责帮助开发者快速构建单 Agent 和多 Agent 应用，强调开源、模块化和可扩展性。

运行层：Vertex AI Agent Engine

Agent Engine 提供托管运行时、会话、记忆、代码执行、观测和治理能力，更适合企业生产部署。

协议层：A2A

Google 还推动了 A2A（Agent2Agent）协议，希望不同 Agent 之间能基于统一协议进行互操作，而不是每家做一套私有对接。

Google 的思路很完整：开发、运行、互操作三层同时推进。

5.4 Microsoft：Agent Framework、AutoGen、Semantic Kernel 的整合

Microsoft 过去在 Agent 方向有两条重要路线：

AutoGen：擅长多 Agent 协作与对话式编排；
Semantic Kernel：擅长插件、企业工程化和工作流嵌入。

现在 Microsoft Agent Framework 的定位可以理解为：把 AutoGen 与 Semantic Kernel 的优势进行统一，形成更适合企业开发、观测和状态管理的框架体系。

Microsoft 的优势在于企业集成能力强，尤其适合 Azure、Microsoft 365、Copilot、企业工作流深度结合的场景。

5.5 AWS：Bedrock Agents、AgentCore 与 Strands Agents

AWS 走的是“云平台原生 Agent 基础设施”路线：

Bedrock Agents：提供托管式 Agent 能力；
AgentCore：强调 runtime、memory、gateway、identity、observability 等基础设施；
Strands Agents：提供开源 SDK，方便开发者快速构建并部署。

AWS 的特点不是概念最激进，而是基础设施最系统，尤其适合已经在 AWS 上有大规模生产环境的团队。

5.6 Salesforce：Agentforce 与企业业务闭环

Salesforce 的重点在于企业业务场景。它不是先做一个通用 Agent 再找场景，而是直接把 Agent 与 CRM、销售、客服、营销等业务数据和流程深度耦合。

其 Agentforce 平台和 Atlas Reasoning Engine 的核心价值在于：

把企业数据和业务规则原生纳入 Agent 决策；
将自治能力放在可治理、可审计的企业上下文里；
面向业务流程而非通用问答优化。

5.7 IBM：watsonx Orchestrate / AI Agent Builder

IBM 的 Agent 路线延续了其企业自动化传统，强调：

no-code 与 pro-code 并行；
能接 Langflow、Python、CLI 等开发方式；
重视治理、可观测性和企业模型路由；
面向任务自动化与企业流程落地。

它更像一个企业智能体编排平台，而不是单纯的开发框架。

5.8 Oracle、ServiceNow、SAP：Agent 深度嵌入企业套件

这几家公司的共性非常明显：

Oracle：把 AI Agent Studio 嵌入 Fusion Apps；
ServiceNow：把 AI Agent Studio 嵌入 ITSM/流程自动化场景；
SAP：把 Joule Agents 与 ERP/供应链/HR 等业务流程深度结合。

这一类方案说明了一个趋势：对大型企业来说，Agent 的价值不一定来自“最通用”，而是来自“最懂业务对象、权限系统和流程规则”。

5.9 Mistral、Meta/Llama Stack、Databricks、NVIDIA

Mistral

Mistral 正在通过 Agents API 把模型能力扩展成 agentic capabilities，并支持 conversations、tools、MCP 类接入。

Meta / Llama Stack

Meta 更像在提供开放模型与开放部署底座。Llama Stack 的意义在于：它让更多 Agent 框架能跑在开放、可替换的模型与基础设施层上。

Databricks

Databricks 从数据与评测角度切入，强调 Agent Framework + Evaluation + Monitoring，更适合数据密集、治理要求高的企业环境。

NVIDIA

NVIDIA 的 NeMo Agent Toolkit 更像企业 Agent 的连接与扩展底座，强调把现有 agent、工具和数据源在统一体系中接起来。

5.10 中国厂商与生态：阿里、百度、腾讯、华为、字节等

中国生态里，Agent 平台通常更强调“开发平台 + 应用构建 + 分发入口”的一体化体验。

阿里 / Qwen-Agent

Qwen-Agent 是国内开源生态中比较有代表性的框架，围绕规划、工具使用、记忆和浏览器/代码解释器等能力构建。

百度

百度智能云的千帆类平台更偏“企业 AI 应用 / Agent 构建工作台”。

腾讯云

腾讯云的 Agent 开发平台更强调工作流、多 Agent 和企业应用连接。

华为云

华为云的相关方案更偏企业级 Agent 构建、评测和治理。

字节 / Coze

Coze 更像一个面向应用构建者的 Agent 平台，强调 bot、插件、工作流、知识库和多端分发。

6. 开源社区方案全景

6.1 编排与运行时框架

LangGraph

LangGraph 是当前最具代表性的 Agent 编排框架之一，突出特点是：

stateful
长任务友好
支持 graph 化编排
支持持久化与恢复
支持 human-in-the-loop
适合复杂工具链和多步骤执行

如果把 Agent 看成“一个长期运行的状态机”，LangGraph 是非常自然的选择。

CrewAI

CrewAI 以“crews + flows”闻名，适合把任务拆成多个角色协作完成，例如研究、撰写、审阅等。它对内容型、分析型、协作型任务很友好。

AutoGen

AutoGen 长于多 Agent 对话式协作，学术影响力很大，也非常适合实验性强、多角色互动明显的场景。

Semantic Kernel

Semantic Kernel 更强调企业开发体验、插件和工作流嵌入，在 Microsoft 技术栈中尤其自然。

LlamaIndex AgentWorkflow

LlamaIndex 的强项是知识与 Agent 的结合。它适合知识密集型任务，尤其是需要 RAG、索引、工具和 Agent 联动的场景。

PydanticAI

PydanticAI 的价值在于类型安全、结构化输出和 Python 工程体验。它适合那些对可维护性、schema 和生产代码质量要求很高的团队。

Haystack Agents

Haystack 本来就是知识系统和检索生态的重要玩家，因此其 Agent 能力也天然适合“检索 + 推理 + 工具动作”一体化场景。

Qwen-Agent

Qwen-Agent 在国内开源生态的意义很大，它把 Qwen 系模型的工具使用、规划与记忆能力进一步框架化，也给了浏览器助手、代码解释器等典型应用示例。

6.2 平台化 / 低代码 / 无代码生态

Dify

Dify 适合快速构建生产级 AI 应用，特点是把 workflow、RAG、Agent、模型管理、可观测性等能力整合在一起。

Flowise

Flowise 走可视化节点路线，适合快速原型搭建和流程实验。

n8n

n8n 原本是自动化编排工具，现在也在把 AI Agent 节点与 workflow 深度结合，非常适合“把 Agent 嵌入现有业务自动化链路”。

RAGFlow

RAGFlow 虽然以 RAG 为核心，但也在向 agent template、memory、复杂知识工作流延伸。

6.3 浏览器与软件工程 Agent

browser-use

它把浏览器作为 Agent 的操作环境，适合网页任务、表单处理、站点导航、跨页面搜集信息等场景。

OpenHands

OpenHands 及其 SDK 面向软件工程与开发者工具场景，强调在真实开发环境中执行任务。

SWE-agent

SWE-agent 是软件工程 Agent 赛道的高代表性项目，围绕真实代码库问题修复形成了强生态影响力。

6.4 记忆系统与上下文层工具

Mem0

强调持久记忆与跨会话上下文。

Letta

强调 stateful agents，本质上把“记忆”和“运行中的 Agent”深度耦合。

Zep

强调 context engineering、graph memory 和个性化上下文拼装。

6.5 评测、观测与监控

LangSmith

适合对 Agent 轨迹、Evals、部署质量做统一管理。

Langfuse

开源友好，适合追踪、分析、构建评测数据集。

Phoenix

偏 tracing + eval，适合做调试与质量分析。

MLflow

正逐步把 Agent 的评测、监控和实验管理纳入更大的 AI 工程平台。

7. 协议层趋势：MCP 与 A2A

7.1 MCP：Agent 接工具和数据源的“通用插头”

MCP（Model Context Protocol）解决的是：Agent 如何以标准化方式接入外部系统。它的意义非常大，因为它把工具集成从“每个平台私有适配”逐步推进到“协议层统一”。

MCP 适用的对象包括：

文件系统
数据库
文档系统
搜索服务
本地 IDE
企业 API
自定义 workflow

这会显著降低工具接入的成本，并提高生态互操作性。

7.2 A2A：Agent 与 Agent 的互操作

A2A（Agent2Agent）更进一步，解决的是不同 Agent 之间如何发现彼此、交换任务、传递结果、协同完成工作。

如果 MCP 更像“agent-to-tool”，那么 A2A 更像“agent-to-agent”。

长期看，未来 Agent 生态很可能会形成多层协议：

MCP：接工具 / 接数据
A2A：接其他 Agent
前端或应用协议：接产品界面

8. 如何评测自主决策 Agent

Agent 的评测和普通聊天模型评测不一样。

8.1 结果评测

看最终答案是否满足目标，例如：

是否完成任务；
是否事实正确；
是否输出格式符合要求；
是否解决了用户真实问题。

8.2 轨迹评测

看执行路径是否合理，例如：

是否选择了正确工具；
是否调用了过多无效步骤；
是否发生循环；
是否存在越权访问；
是否进行了必要验证。

8.3 系统级评测

从整体生产角度看，还要看：

平均成本
平均时延
失败率
人工介入率
工具成功率
记忆召回效果
安全事件率

Agent 评测因此必须是分层的，而不是只用一个“准确率”指标。

9. 当前自主决策 Agent 的主要难点

9.1 自主性与可控性天然矛盾

Agent 越自主，越可能带来惊喜；也越可能带来风险。因此，优秀设计一定是“受约束的自治”。

9.2 长上下文不等于长任务能力

模型上下文窗口再长，也不等于能稳定完成长时程任务。真正困难的是：状态压缩、阶段切换、记忆写入与召回、失败恢复。

9.3 工具世界比文本世界脆弱得多

真实网页会变、API 会超时、权限会过期、页面会漂移、数据会脏。Agent 一旦接触真实环境，复杂度立刻上升一个量级。

9.4 多 Agent 容易引入组织熵

角色越多、交互越多，上下文同步和责任边界就越难管。很多项目不是能力不足，而是组织开销吞掉了收益。

9.5 真正的价值常常来自垂直场景

比起“万能 Agent”，更容易稳定落地的通常是那些深耦合业务数据、权限体系和流程规则的垂直 Agent。

10. 实际落地建议

10.1 从单 Agent + 少量高质量工具开始

不要一开始就做多 Agent 团队。先把以下闭环打通：

目标输入
计划
工具调用
状态记录
验证
失败恢复
轨迹观测

10.2 先把“工具协议”和“状态结构”设计好

长期看，这比 prompt 微调更重要。工具和状态是 Agent 的骨架。

10.3 早做评测，尤其是轨迹评测

不要等上线后再看“为什么总是莫名失败”。很多问题在轨迹层就能提前发现。

10.4 对高风险动作默认加审批

这是最实用、也最能避免事故的设计原则。

10.5 尽早拥抱 MCP / 标准化接入

如果你的 Agent 未来要接越来越多的工具和系统，标准化协议会显著降低维护成本。

11. 总结

自主决策 Agent 的本质，不是“更会聊天”，而是“更会围绕目标持续行动”。

从工程角度看，它真正重要的不是某个单一模型或某个单一框架，而是能否形成一个完整闭环：

目标是否清晰；
规划是否合理；
工具是否可用；
状态是否可维护；
轨迹是否可观测；
结果是否可验证；
风险是否可治理。

行业正在逐渐形成共识：

Agent 是系统工程，不是 prompt 魔法；
真正落地的关键在运行时、工具、上下文和治理；
多数场景应从简单模式起步，再逐步增加自治；
开源框架与企业平台会长期并存；
协议层互操作会成为下一阶段的重要竞争点。

未来几年，Agent 的竞争不会只发生在“谁的模型更强”，还会发生在：

谁的运行时更稳；
谁的工具生态更丰富；
谁的上下文工程和记忆体系更成熟；
谁的评测和治理能力更完善；
谁能把自治真正变成可交付的生产力。

参考来源（真实链接）

一、核心方法论与研究

ReAct: Synergizing Reasoning and Acting in Language Models
arxiv.org/abs/2210.03…
Toolformer: Language Models Can Teach Themselves to Use Tools
arxiv.org/abs/2302.04…
Reflexion: Language Agents with Verbal Reinforcement Learning
arxiv.org/abs/2303.11…
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
arxiv.org/abs/2305.10…
Plan-and-Solve Prompting
arxiv.org/abs/2305.04…
Voyager: An Open-Ended Embodied Agent with Large Language Models
arxiv.org/abs/2305.16…
LLMCompiler: An LLM Compiler for Parallel Function Calling
arxiv.org/abs/2312.04…
Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks
arxiv.org/abs/2411.04…

二、Anthropic / OpenAI / Google / Microsoft / AWS

Anthropic：Building Effective AI Agents
www.anthropic.com/research/bu…
Anthropic：Effective Context Engineering for AI Agents
www.anthropic.com/engineering…
OpenAI：Agents 概览
developers.openai.com/api/docs/gu…
OpenAI：Agents SDK
developers.openai.com/api/docs/gu…
OpenAI：Responses API Overview
developers.openai.com/api/referen…
OpenAI：Introducing AgentKit
openai.com/index/intro…
OpenAI Guardrails Python
openai.github.io/openai-guar…
Google：Agent Development Kit (ADK) 介绍
developers.googleblog.com/en/agent-de…
Google：Vertex AI Agent Engine Overview
docs.cloud.google.com/agent-build…
Google：Evaluate Gen AI Agents on Vertex AI
docs.cloud.google.com/vertex-ai/g…
Google：A2A 开发文档
docs.cloud.google.com/agent-build…
A2A Protocol 官方文档
a2a-protocol.org/latest/
Google：A2A 捐赠至 Linux Foundation 说明
developers.googleblog.com/en/google-c…
Microsoft：Agent Framework Overview
learn.microsoft.com/en-us/agent…
Microsoft：AutoGen 文档
microsoft.github.io/autogen/sta…
Microsoft：Semantic Kernel Agent 文档
learn.microsoft.com/en-us/seman…
AWS：Amazon Bedrock Agents
docs.aws.amazon.com/bedrock/lat…
AWS：Amazon Bedrock AgentCore Documentation
docs.aws.amazon.com/bedrock-age…
AWS：AgentCore Overview
docs.aws.amazon.com/bedrock-age…
Strands Agents 文档
strandsagents.com/docs/user-g…

三、企业套件与平台厂商

Salesforce：Agentforce
www.salesforce.com/agentforce/
Salesforce：Atlas Reasoning Engine
www.salesforce.com/agentforce/…
IBM：AI Agent Builder
www.ibm.com/cn-zh/produ…
Oracle：Oracle AI Agents for Fusion Applications
www.oracle.com/application…
Oracle：AI Agent Studio 相关新闻与说明
www.oracle.com/cn/news/ann…
ServiceNow：AI Agent Studio 文档
www.servicenow.com/docs/r/inte…
ServiceNow：AI Agents / AI Agent Studio 产品页
www.servicenow.com/products/ai…
SAP：Joule Agents
www.sap.com/products/ar…
SAP：Joule / AI Assistant
www.sap.com/products/ar…
Mistral：Agents & Conversations
docs.mistral.ai/agents/agen…
Mistral：Build AI Agents with the Mistral Agents API
mistral.ai/news/agents…
Llama Stack GitHub
github.com/llamastack/…
Databricks：Mosaic AI Agent Framework
www.databricks.com/product/mac…
NVIDIA：NeMo Agent Toolkit
developer.nvidia.com/nemo-agent-…
NVIDIA：NeMo Agent Toolkit Documentation
docs.nvidia.com/nemo/agent-…