【AgentKit】2025年OpenAi开发者大会推出的Agent工具包这个月，OpenAI举办了其年度开发者大会，由

背景

这个月，OpenAI举办了其年度开发者大会，由于我们的产品正在逐步使用AI的相关功能，老板很重视这个发布会，让我研究一下此次发布会的两个重点APP SDK和AgentKit，并让我准备一个分享会。

本文主要是在我资料收集中总结的一些内容（分享会上包括一些实操这里没有贴）。此篇文章主要介绍AgentKit的相关介绍，主要是基于官方文档，概念性的东西比较多，我也贴了很多链接，下一篇文章将介绍Apps SDK相关概念。

OpenAi的年度发布会

OpenAi在10月6日在旧金山举办其年度开发者大会，聚焦于在OpenAI平台构建的能力。

OpenAI 会在每年秋天，进行一场面向开发者的发布会，称为 OpenAI DevDay

第一场 DevDay 2023，聚焦于模型能力，于2023年11月6号召开

这场发布会，带来了新模型 GPT‑4 Turbo（有了多模态理解）、JSON Mode（现在的结构化输出）、GPTs（OpenAI 最早的场景 Agent 探索）
第二场是 DevDay 2024，聚焦于业务应用，一连开了3场，分别在旧金山（10月1号）、伦敦（10月30号）和新加坡（11月21号）

这系列的发布，带来了 Realtime API、Prompt Cache、蒸馏工具，并预告了 o1 的各项更新（比如：函数调用、开发者消息、结构化输出和图片理解）

按 Sam 的话来说，今年这场发布会是聚焦于「如何让人更好的用 AI 去创造」，并带来了以下新鲜内容

Apps SDK：与外部应用无缝集成，OpenAI最大野心——把ChatGPT打造成未来的操作系统；
AgentKit：无需编码，拖放搭建智能体。人人都可快速开发智能体，还能评估智能体能力；
Codex全面可用：不写一行代码，打造爆款APP；
API更新：三大API更新，Sora 2 API同步上线。

AgentKit是什么

kit是工具包的意思，类似于CloudKit、NextUI Kit

官方介绍

今天我们推出 AgentKit，这是一套为开发者和企业构建、部署和优化代理的完整工具集。到目前为止，构建agent（build agent）意味着要处理零散的工具①——没有版本控制的复杂编排、自定义连接器②、手动评估流程、提示调整③，以及在发布前需要数周的界面工作④。使用 AgentKit，开发者现在可以直观地设计工作流程，并利用新的构建模块更快地嵌入代理式界面，例如：

Agent Builder: ：一个用于创建和版本化多代理工作流程的可视化画布（拖拉拽构建Workflow的低代码平台）
Connector Registry: ：为管理员提供一个注册中心，用于管理数据和使用工具在 OpenAI 产品中的连接方式
ChatKit: 一个可在您的产品中嵌入可定制聊天式代理体验的工具包

它解决什么问题

为了解决常规agent开发带来的问题：

常规agent开发需要手动维护大量各种各样的的工具
需要自己定义连接器
手动评估流程，没有优化提示
开发agent时间周期长

AgentBuilder

随着代理工作流变得越来越复杂，开发者需要更清晰的了解它们的工作方式。Agent Builder 提供了一个可视化画布，通过拖放节点、连接工具和配置自定义护栏来组合逻辑。它支持预览运行、内联评估配置和完整版本控制——非常适合快速迭代。

我的理解就是：agent builder这个工具类似于一个agent Workflow的低代码平台

一个Workflow也可以是agent的tool

Agent workflow?

可以参考这篇文章

到底什么是踏马的 Agentic Workflows？

依据我个人的理解：

每个agent只做自己责任范围内的事情，然后使用Agentic Workflows就是将多个agent进行编排，协调和管理。

✅AI Agent Workflow = 多个 Agent 之间的编排 + 状态管理 + 协同执行机制。

temporal.io/ai/agentic-…

为什么需要workflow

处理复杂任务的能力有限

案例：在线旅游预订助手

传统 Chatbot 的局限性：传统聊天机器人在处理多步骤任务时，往往只能按照预设的对话流程进行，难以灵活应对用户的个性化需求。例如，在预订旅游行程时，用户可能需要选择目的地、出发日期、交通方式、住宿类型等多个选项。传统 Chatbot 可能无法有效地引导用户完成整个预订流程，导致用户体验不佳。
工作流的解决方案：可以将复杂的预订流程拆解为多个节点，每个节点处理特定的任务，如获取用户输入、调用外部 API 获取航班和酒店信息、计算价格等。这样，Chatbot 能够灵活地引导用户完成整个预订流程，提高用户满意度。

上下文理解不足

案例：客户服务咨询

传统 Chatbot 的局限性：在长时间对话中，传统 Chatbot 往往难以保持对上下文的准确理解，可能会忽略之前的对话内容，导致回复不相关或重复询问用户信息。
工作流的解决方案：工作流可以在不同节点之间传递和存储上下文信息，确保 Chatbot 在整个对话过程中保持对用户需求的准确理解，从而提供连贯且相关的回复。

缺乏动态数据处理

案例：实时股票查询

传统 Chatbot 的局限性：传统 Chatbot 可能无法实时获取最新的股票市场数据，导致提供的信息过时或不准确。
工作流的解决方案：通过集成外部插件和 API，工作流可以实时获取最新的股票数据，并将其呈现给用户，确保信息的时效性和准确性。

个性化服务能力不足

案例：个性化新闻推送

传统 Chatbot 的局限性：由于缺乏对用户兴趣和历史行为的了解，传统 Chatbot 难以提供符合用户偏好的新闻内容。
工作流的解决方案：通过在工作流中存储和分析用户的历史行为和偏好，Chatbot 可以为用户推送个性化的新闻内容，提升用户体验。
通过以上案例，可以看出工作流在处理复杂任务、上下文管理、动态数据处理和个性化服务方面，显著提升了 Chatbot 的能力，克服了传统 Chatbot 的局限性。

AgentBuilder有什么效果

使用文档

platform.openai.com/docs/guides…

官方示例（含中文字幕）

www.xiaohongshu.com/explore/68e…

一些类似的工具

Dify

- 特点：开源可视化的AI应用编排平台，支持多模型接入（GPT/Claude/国产模型）、RAG增强、工具调用与工作流设计，提供企业级监控和协作功能。
- 适用场景：快速开发对话Agent、知识库问答、复杂任务自动化。
- 用户群体：AI产品团队、开发者、需私有化部署的企业。

Flowise & Langflow

- 特点：开源轻量级工具，通过拖拽节点连接LLM、数据库和API，快速构建Agent流程（如客服机器人、检索系统）。
- 优势：本地部署保障数据安全，适合定制化需求。
- 典型用户：AI工程师、快速原型验证者。

Coze（字节跳动）

- 特点：无代码Bot构建平台，内置知识库、插件市场，支持一键部署到微信/飞书等平台，集成抖音生态。
- 场景：电商运营、内容生成、企业内部助手。
- 用户：产品经理、运营人员等非技术背景用户。

n8n

- 定位：开源自动化平台，支持350+应用集成（API、数据库、爬虫等），可通过JavaScript/Python节点扩展AI功能（如调用大模型）。
- 优势：自托管、高自由度，适合复杂业务逻辑。
- 典型用例：跨系统数据同步、电商商品管理、结合AI的数据处理。

尝试一下

platform.openai.com/agent-build…

字节的Coze

www.coze.cn/home

相比于传统agent开发

OpenAI的官网上，主要是介绍AgentKit给应用带来的开发效率上的提升。

编码式的Workflow框架

这种拖拉拽的低代码Workflow构建平台并不被我们老板看好，因为对于复杂的Workflow，维护这样一个面板将变的困难，所以我们后期可能会使用这个框架。

docs.langchain.com/oss/python/…

Connector Registry

官方介绍

我们还将推出一个连接器注册中心，供企业管理和维护跨多个工作空间和组织的数。连接器注册中心将数据源整合到一个管理面板中，覆盖 ChatGPT 和 API。该注册中心包括所有预构建的连接器，如 Dropbox、Google Drive、Sharepoint 和 Microsoft Teams，以及第三方 MCPs。

这部分没特别多说的，主要就是构建一个连接器，方便管理各种tool工具。

ChatKit

官方文档： platform.openai.com/docs/guides…

这是一个用于聊天界面的可嵌入 UI 组件。它处理聊天线程、流式响应、消息历史记录、用户输入以及对话体验的所有视觉元素。您只需将其添加到您的应用程序中，指向您的代理端点，即可获得一个可工作的聊天界面。

无需前端工作：ChatKit 可以为您节省从头构建聊天界面的时间。无需管理用于流式传输的 websockets，处理逐个 token 的渲染，实现消息线程，或构建输入验证。所有实时聊天的基础设施都是由 OpenAI 构建和维护的。这可以节省数周的前端开发时间。

实现 ChatKit 有两种方式：

Recommended integration. Embed ChatKit in your frontend, customize its look and feel, let OpenAI host and scale the backend from Agent Builder. Requires a development server.
推荐集成。将 ChatKit 嵌入到你的前端，自定义其外观和感觉，让 OpenAI 托管和扩展后端（从 Agent Builder）。需要开发服务器。
Advanced integration. Run ChatKit on your own infrastructure. Use the ChatKit Python SDK and connect to any agentic backend. Use widgets to build the frontend.
高级集成。在你的基础设施上运行 ChatKit。使用 ChatKit Python SDK 并连接到任何代理后端。使用小部件构建前端。

其他一些工具

AgentKit包中还包含一些其他工具，这里就稍微结合官方文档介绍一下。

Evals and Trace Grading

既然是Agent的开发工具包，那么当然需要对Agent有一些性能测试的工具。

AgentKit 包含系统评估代理性能的工具。您创建测试场景，运行agnet进行测试，测量结果，并确定需要改进的地方。

评估数据集：您创建包含输入/输出对或测试场景的评估数据集。这些可以是真实用户查询、您希望处理的边缘案例，或涵盖不同情况的合成示例。随着您发现新的故障模式或为代理添加新功能，您可以随着时间的推移扩展数据集。
自定义评分器：您定义评分器（根据准确性、相关性、安全性或自定义指标对响应进行评分的函数）。评分器可以是自动化的（检查特定输出或模式），也可以是人工标注的（手动审查质量）。您运行评估，并查看代理在整个数据集上的表现，而不仅仅是挑选的示例。
跨模型测试：这项功能也适用于不同的模型。你可以使用 GPT-4、GPT-3.5 或其他模型来测试相同的流程，并比较在成本、速度和质量方面的结果。这有助于你根据实际性能数据选择适合你用例的正确模型，而不仅仅是基于对哪个模型“更好”的假设。
跟踪评分：跟踪评分功能允许您逐步分析单个运行情况。您可以查看触发了哪些工具调用，代理在每一步中在想什么，它选择了哪些分支，以及问题出在哪里。这对于调试多步骤工作流程至关重要，因为在执行路径的深处发生故障，仅凭最终输出是无法明显发现的。
自动化提示优化：系统可以根据人类标注和评分输出生成改进的提示。无需通过反复试验手动调整提示，您只需提供反馈说明哪里出了问题，系统就会建议更好的版本。这显著加快了迭代周期。

Reinforcement Fine-Tuning and Feedback Loops （强化微调和反馈循环）

这一部分主要是强化Agent的学习和反思能力，引导Agent正反馈的学习。

如果对代理的表现给予反馈，代理会随着时间的推移而变得更好。AgentKit 提供了基础设施来系统地收集反馈，并利用这些反馈在不每次都从头开始的情况下改进代理行为。
自定义评分器作为奖励：AgentKit 支持自定义评分器，它们充当奖励信号。您定义“好”的标准（如成功完成任务、用户满意度、效率、更少的解决方案步骤），系统利用这些反馈随着时间的推移改进代理的决策。
并非完全自动：这不是完全自动的。您仍然需要仔细设计奖励函数，并验证代理是否在学习正确的事情。不良的奖励设计可能导致代理优化错误的结果（例如，为了最大化速度而给出简短答案，而实际上详尽的答案更好）。
反馈收集：用于收集反馈并应用的基础设施已内置。您无需自行构建用于记录交互、汇总分数、存储示例或触发再训练的流程。但您确实需要定义什么反馈是重要的、如何衡量它，以及什么阈值表示改进。
迭代改进：经过多次迭代，智能体能够从反馈中的模式中学习。如果某些方法持续获得高分，智能体将在未来倾向于使用类似的策略。这对于在生产环境中不断改进行为，而无需持续的人工干预或每次发现问题就重写提示非常有用。

（Agents SDK and Responses API ）代理 SDK 和响应 API

Responses API：响应 API 负责处理结构化输出和工具调用。当代理决定使用工具时，API 会正确格式化请求、执行函数、等待结果，并以代理可使用的结构化格式返回结果。这省去了大量手动编写的解析、验证和错误处理工作。（我的理解就是，将你的API的入参和出参变成agent认识的格式，并汇总）

Agents SDK: 提供了编排层。它管理多轮次中的状态，在工具失败时处理重试，按正确顺序序列化工具调用，并实现控制流逻辑。正是这一点让代理能够通过多步任务进行推理，而无需你手动串联提示或自行管理对话历史。

Agent Builder 本质上是一个围绕 SDK 的 UI 封装，它在后台生成代码。在构建器中你能做的所有事情，用代码都能实现，并且具有更高的灵活性、控制能力以及集成自定义逻辑的能力

当你的工作流程过于复杂无法用可视化表示时，当你需要自定义逻辑而无法适应预定义节点时，当你希望对代码本身进行版本控制时，或者当你将代理行为集成到具有现有代码和依赖的大型应用程序中时，使用 SDK。

Guardrails and Safety （安全防护机制）

我的分享会上也有人提到了，是否用户会用提示词进行攻击或者导致用户信息的泄露，这里是这个工具包提供的一个安全的相关的工具，在发布者大会上也有人演示了在Agent中加上fang

如果agent没有被适当约束，它们可能会造成损害。AgentKit 包含多种安全功能，以降低在生产环境中部署代理时的风险，尤其是在代理可以访问敏感数据或能够执行影响真实系统的操作时。

输入验证：输入验证会检查用户查询中的恶意内容、提示注入尝试或越狱技术。这可以防止用户欺骗代理忽略指令、泄露系统提示或执行未预期的操作。系统会在可疑输入到达代理的推理层之前进行标记或阻止。
输出验证：输出验证确保代理不会泄露敏感信息、生成有害内容或输出其不应访问的数据。这能捕获代理可能在用户收到或记录前意外包含内部数据、API 密钥、凭证或不适当响应的情况。
个人身份信息遮蔽：个人身份信息遮蔽功能会自动从日志和跟踪记录中遮蔽可识别个人身份的信息。这有助于满足合规要求（如 GDPR、CCPA、HIPAA），并降低在调试系统、监控仪表板或可能被共享给第三方的导出日志中暴露用户数据的风险。
并非万无一失：安全层并非万无一失。您仍需彻底测试、在生产环境中监控，并对高风险决策进行人工监督。防护措施能显著降低风险，但无法完全消除风险。恶意行为者仍能找到规避保护的方法，无论您多么小心，边缘情况仍会存在。

参考

本人也是临时研究，如有文中有错误，或者没有表述清楚的地方，望请指正