OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

0 阅读9分钟

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集

900 页保险单 100% 提取,一半 PR 出自 Agent。你还在手动调 LangChain 吗?

很多人已经开始感觉到不对劲了。

三个月前,GPT-5.4 带着原生 computer use 登场,模型能直接操作电脑了。但开发者很快发现一个问题:模型能点能敲,可 Agent 到底跑在哪台机器上?怎么保证它不乱删文件?怎么让它跑几个小时不断线?

这些基建问题,还是得自己东拼西凑。

今晚,OpenAI 把这个缺口堵上了。

不是小修小补,是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具,外加七家沙盒厂商一键接入。

一句话:OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦,然后把基建层直接铺到了所有人脚下。

这篇文章,我们从工程视角拆三件事:

  1. 这次到底改了什么
  2. 为什么说 LangChain 们无处可躲
  3. 你现在应该怎么做

目录

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
二、本质变化:OpenAI 把「基建」和「算力」拆开了
三、核心机制拆解:harness + 沙盒 + Manifest
四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
五、工程落地启示:你的 Agent 架构该升级了
六、趋势判断:第三方框架往哪走

一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑

3 月初,GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入,跟人一样操作电脑。

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了,可 Agent 跑在哪台电脑上?用自己笔记本?那跑几小时的任务怎么办?用云服务器?环境怎么配?权限怎么隔离?跑崩了从哪恢复?

这些问题,OpenAI 当时一个都没解决。

开发者只能自己拼:LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来,还没写业务逻辑,基建已经堆了上千行。

这不是个例。过去一年,几乎所有做长周期 Agent 的团队都在重复造同一个轮子:一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚,OpenAI 把这个轮子直接塞进了 SDK。

二、本质变化:OpenAI 把「基建」和「算力」拆开了

这次升级,核心就两件事。

第一件:给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具(Codex 同款)、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单,熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践,全部产品化塞进了 SDK。

第二件:把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里,负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒,专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥,也没有任何敏感数据。甚至可以断开网络,零对外流量。

这不是安全加固。这是架构范式的迁移。

以前,Agent = 模型 + 提示词 + 工具调用。
现在,Agent = harness(控制流) + sandbox(执行环境) + 模型。

本质是:OpenAI 不再只卖模型推理,开始卖 Agent 的生产级运行底座。

三、核心机制拆解:harness + 沙盒 + Manifest

这次发布,技术上有三个点值得深挖。

1. Manifest:一份配置清单,解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置:要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是,Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent,明天想换 Modal 跑,不改代码,只改一行配置。

官方给了最小示例,让一个 Agent 跑进本地沙盒,挂载财报目录,对比两年的财务指标,核心代码不到 20 行。

agent = SandboxAgent(
    name="Dataroom Analyst",
    model="gpt-5.4",
    instructions="Answer using only files in data/. Cite source filenames.",
    default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),
)

20 行代码,完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写,至少 100 行起。

2. 快照与状态恢复:掉线续命

长跑任务最怕什么?沙盒容器挂了,所有进度丢失,从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半,整个状态序列化保存。沙盒崩了,从最近检查点恢复,继续跑。

这不是 checkpoint 回调,是原生内建。

3. 多沙盒并行 + 子 Agent 隔离:分身作战

一个任务拆成十个子任务,十个子任务分别跑在十个独立沙盒里,互不干扰。每个子 Agent 有自己的隔离环境,主 Agent 负责协调和汇总。

扩展性问题,原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent

数字比观点更有说服力。

案例一:900 页保险理赔记录,100% 提取

FurtherAI CTO 披露,他们的 Agent 啃下了一份 900 多页的保险理赔记录,提取成功率 100%。保险业的人知道,这是业内最难啃的文档之一,以前跑到某一页崩掉是常态。

案例二:公司一半 PR 出自 Agent

Modal 技术团队成员透露,Ramp 已经用 Modal 跑了一支后台编码 Agent 大军,公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露,内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点:在拿到成熟 Agent 基建之后,业务团队的生产力出现了断层式跃迁。

案例三:代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字:相同能力的 Agent,这次需要的代码量比以前少了 6 倍。

案例四:发票对账,第一轮就跑通

Box 开发者关系负责人传了一份业务数据,配上 bash/python 作为工具,让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事:以前只有头部公司才能攒出来的 Agent 基建,现在变成了 SDK 里开箱即用的默认配置。

人工智能技术学习交流群

伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image.png

五、工程落地启示:你的 Agent 架构该升级了

如果你现在还在用 LangChain 或自己手写 Agent 框架,这次发布应该让你重新思考三件事。

启示一:不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用,OpenAI 已经给出了官方实现。自己写的版本,大概率没有官方稳定,也没有官方迭代快。

除非你有极其特殊的编排需求,否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二:沙盒选型变成配置问题

以前,选沙盒意味着改代码。换了沙盒供应商,工具调用层要重写。现在,Manifest 一层抽象,沙盒选型变成改一行配置。

建议:本地开发用 UnixLocalSandboxClient,测试用 E2B,生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近,就切到哪家。

启示三:长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题,一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照,建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加,是架构上就依赖它。

下面这张图概括了新的 Agent 架构:

图片

核心变化:Harness 管脑子,Sandbox 管手脚。中间用 Manifest 解耦。

六、趋势判断:第三方框架往哪走

这次发布,对 Agent 生态的冲击才刚刚显露。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架,过去一年靠什么活着?靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作,这些都是第三方的主战场。

现在,OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复,Manifest 原生支持工具和沙盒管理,快照原生支持状态持久化。

第三方框架的空间,被压缩到两个方向:

  • 往上走:垂直场景的 Agent 编排(比如只做客服 Agent、只做编码 Agent)
  • 往下走:专用沙盒、专用工具、专用存储

夹在中间做通用 Agent 框架的,地板已经被 OpenAI 自己踩实了。

另外,OpenAI 口中的「兼容所有沙盒服务商」,本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴,明天可能就是「组件供应商」。

当然,目前还不完美。新能力首发只上了 Python,TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台,Agents SDK 给它配齐了真正的运行环境。下一步缺的,只是更多开发者把业务逻辑搭在这个基建之上。

推荐学习

测试智能体与智能化测试平台公开课, 从架构设计到大厂落地,重塑自动化测试力。

扫码进群,报名学习。

image.png

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料,主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容,侧重测试实践、工具应用与工程经验整理。