OpenAI 重磅发布 Agent 工具包:AI 智能体时代正式到来?

90 阅读6分钟

今日凌晨,人工智能领域再迎里程碑事件 —— OpenAI 正式推出全新 AI Agent 开发套件,这组被开发者称为"Agent 全家桶"的工具集将彻底改变人机交互方式。包括 Responses API、内置工具(如Web Search、File Search、Computer Use)、Agents SDK 和集成观测工具等。Responses API 结合了 Chat Completions API 和 Assistants API 的优势,为构建智能代理提供了新的 API 基础,Assistants API 未来将被逐步淘汰,被 Responses API 取代。网页搜索工具为开发者提供快速、准确且带有清晰引用来源的答案;文件搜索工具支持多种文件类型,能快速检索大量文档信息;计算机使用工具可让开发者在 Responses API 中构建能在计算机上完成任务的智能代理;Agents SDK 简化了多智能代理工作流的编排。OpenAI 致力于为开发者提供构建智能代理的平台,持续投入以提升模型能力和提供更多工具。

Responses API

Responses API 是用于构建智能代理的新 API,结合了 Chat Completions API 的简单性和 Assistants API 的工具使用能力,支持新的内置工具,如网页搜索、文件搜索和计算机使用等。它为开发者提供了更灵活的基础,让开发者能轻松地将 OpenAI 模型和内置工具整合到应用中,且从今天起对所有开发者开放,按标准费率计费。

CleanShot 2025-03-12 at 11.19.21.gif

内置工具

Web Search

在 Responses API 中,网页搜索可在使用 gpt-4o 和 gpt-4o-mini 时作为工具使用,能与其他工具或函数调用配对。开发者可利用网页搜索为各种应用场景获取快速、准确且带有清晰引用来源的答案,任何网站或出版商都可选择在 API 的网页搜索中出现,该工具在预览阶段对所有开发者开放,有特定的定价模式。

const response = await openai.responses.create({
    model: "gpt-4o",
    tools: [ { type: "web_search_preview" } ],
    input: "What was a positive news story that happened today?",
});

console.log(response.output_text);

API 中的网络搜索由与 ChatGPT 搜索相同的模型提供支持。在 SimpleQA(一个评估大语言模型回答简短事实性问题准确性的基准测试)中,GPT‑4o 搜索预览版和 GPT‑4o 迷你搜索预览版的得分分别为 90% 和 88%。

File Search

文件搜索工具在 Responses API 和 Assistants API 中均可使用,支持多种文件类型、查询优化、元数据过滤和自定义重排序,能快速准确地从大量文档中检索信息,适用于多种实际场景,如客户支持、法律助理和编码代理等,有明确的定价标准。

const productDocs = await openai.vectorStores.create({
    name: "Product Documentation",
    file_ids: [file1.id, file2.id, file3.id],
});

const response = await openai.responses.create({
    model: "gpt-4o-mini",
    tools: [{
        type: "file_search",
        vector_store_ids: [productDocs.id],
    }],
    input: "What is deep research by OpenAI?",
});

console.log(response.output_text);

Computer Use

在 Responses API 中,计算机使用工具由与 Operator 相同的模型提供支持,能让开发者构建可在计算机上完成任务的智能代理,在一些基准测试中取得了较好成绩,但仍存在一定风险,需要人工监督,适用于自动化浏览器工作流等场景。

const response = await openai.responses.create({
    model: "computer-use-preview",
    tools: [{
        type: "computer_use_preview",
        display_width: 1024,
        display_height: 768,
        environment: "browser",
    }],
    truncation: "auto",
    input: "I'm looking for a new camera. Help me find the best one.",
});

console.log(response.output);

Computer Use vs Browser Use

Agent SDK

新的 Agents SDK 简化了多智能代理工作流的编排,相比去年发布的 Swarm 有重大改进,适用于各种实际应用场景,如客户支持自动化、多步骤研究、内容生成等,可与 Responses API 和 Chat Completions API 配合使用,也将支持其他提供商的模型,改进内容包括:

  • 智能体(Agents) :大语言模型(LLMs)易于配置,且具备清晰的指令和内置工具。开发人员可以根据具体需求,快速设置智能体的功能,比如明确智能体的任务指令,同时利用其内置工具执行特定操作,这大大降低了配置复杂模型的难度,提升了开发效率。
  • 交接(Handoffs) :能够在不同智能体之间进行智能的控制权转移。当一个智能体完成其特定任务或遇到超出其处理能力的情况时,系统可以自动且合理地将控制权转移给更适合处理后续任务的智能体,确保任务处理流程的顺畅进行,提高了多智能体协作的效率和智能性。
  • 防护栏(Guardrails) :可配置的安全检查机制,用于对输入和输出进行验证。通过设置防护栏,开发人员可以定义输入数据的合法性规则以及输出结果的安全性标准,防止不合法或有害的数据输入和输出,增强了智能体系统的安全性和稳定性。
  • 追踪与可观测性(Tracing & Observability) :能够可视化智能体的执行轨迹,以便进行调试和优化性能。开发人员可以通过观察智能体在处理任务过程中的每一个步骤和决策,发现潜在的问题和瓶颈,进而对智能体的算法、参数等进行优化,提升系统整体的性能和可靠性。

目前 Python 代码库可立即集成,Node.js 支持即将推出。demo 如下:

from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

@function_tool
def submit_refund_request(item_id: str, reason: str):
    # Your refund logic goes here
    return "success"

support_agent = Agent(
    name="Support & Returns",
    instructions="You are a support agent who can submit refunds [...]",
    tools=[submit_refund_request],
)

shopping_agent = Agent(
    name="Shopping Assistant",
    instructions="You are a shopping assistant who can search the web [...]",
    tools=[WebSearchTool()],
)

triage_agent = Agent(
    name="Triage Agent",
    instructions="Route the user to the correct agent.",
    handoffs=[shopping_agent, support_agent],
)

output = Runner.run_sync(
    starting_agent=triage_agent,
    input="What shoes might work best with my outfit so far?",
)

接下来的计划:搭建智能体平台

OpenAI认为,智能体很快就会成为劳动力中不可或缺的一部分,极大地提高各行各业的生产力。随着企业越来越多地寻求利用人工智能来处理复杂任务,我们致力于提供各种基础组件,使开发人员和企业能够有效地创建能在现实世界中产生实际影响的自主系统。

通过今天发布的内容,OpenAI推出了首批基础组件,旨在赋能开发人员和企业,让他们能够更轻松地构建、部署和扩展可靠、高性能的人工智能智能体。随着模型能力越来越具备智能体特性,OpenAI将继续加大投入,在我们的应用程序编程接口(APIs)之间进行更深入的集成,并开发新的工具,以帮助在实际生产中部署、评估和优化智能体。我们的目标是为开发人员提供一个无缝的平台体验,让他们能够构建出可以在任何行业中协助完成各种任务的智能体。若想开始尝试,可浏览OpenAI的文档,或点击下方名片关注我们,我们降更新更多更新内容。