刚刚，OpenAI 首个 L3 级智能体深夜觉醒！AI 自己玩电脑引爆全网，AGI 一触即发【新智元导读】 OpenAI

【新智元导读】 OpenAI 首个智能体 Operator，刚刚震撼登场。从此，AI 打破 API 局限，可以像人类一样直接和界面交互了。L3 级智能体达成，AGI 路上一大障碍又被扫清！

刚刚，OpenAI 首个智能体终于亮相了！

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播，首次揭秘能像人类一样使用电脑的 AI。

Sam Altman，Yash Kumar，Casey Chu，Reiichiro Nakano

演示中，AI 智能体不仅可以精准理解指令，还能自主完成各类任务。

而它的独特之处在于，可以直接与网页交互——打字、点击、滚动，几乎一气呵成。

比如，自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

「Operator」背后操盘手便是 Computer-Using Agent （CUA），打破了特定编程接口的局限，像人类一场直接与 GUI 进行交互。

从此，通往 AGI 道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了！

OpenAI 官博将此称为，AI 与数字世界的「通用界面」。

「Operator」究竟有多厉害？

在多个测试环境中，CUA 成功率令人瞠目：在 OSWORLD 上完成计算机使用任务成功率高达 38.1%，比此前 SOTA 提升近 16%；在 WebArena 上完成浏览器使用任务成功率达到 58.1%，性能飙升 22%。

不过与人类（72.4% 和 78.2%）相较之下，AI 的能力还是有所差距。

在 WebVoyager 上，CUA 更是达到了惊人的 87%。

好消息是，「Operator」终于上线。而坏消息是，目前只有 Pro 美国用户才能体验。

为了弥补这一遗憾，奥特曼提前剧透了，o3-mini 直接在 ChatGPT 中「开源」，Plus 用户会有更多用量。

虽然但是，我们其实也可以用国产「Operator」替代一波（手动狗头）

随着 Operator 的正式发布，总裁 Greg 也再一次强调，「2025 年，就是智能体之年」。

话不多说，直接上演示。

AI 接管 PC 订餐，但直播小翻车

‍

我们‍可以在 Operator 中选择 OpenTable，让它订一张今晚 7 点在 Beretta 的两人位子。

可以看到，输入查询后，Operator 会实例化指令，创建在云端运行的浏览器操作。

随后，Operator 转到了搜索 Beretta 的 URL。非常令人惊喜的是，OpenTable 默认的地址是弗吉尼亚，但它自动更正为旧金山。

再比如，我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后，就可以直接传给 Operator，同时告诉他我们偏好的商店是 Gus。

在这种情况下，Operator 很快就根据 GPT-4o 的视觉功能理解了图中的意思，还明白 Gus 商店是哪里。

接下来，就像 OpenTable 一样，它实例化了一个浏览器，然后开始了购买环节。

如果在以前，如果我们想用智能体执行类似操作，就必须确定特定网站有 API，并且这个 API 有一切所需的功能，然而，大部分网站都是没有 API 的。

而 CUA 通过教模型使用我们日常使用的基本界面，它就解锁了一系列以前无法访问的软件！

可以看到，在执行操作的过程中，Operator 进行了一些内在独白，总结出了思维链。

然后它选择了鸡蛋，点击了添加按钮。而且每执行一个操作还会给电脑截个图，这样它就知道自己的操作对电脑有什么影响。

接下来，它点击搜索框，输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续，直到任务完成。

当然，人类也可以随时接过 Operator 的控制权，这就保证了用户随时可以控制 Operator，并向它发出指令。

有趣的是，人类接管之后，Operator 并不能看到我们在接管模式下做的事——这就保证了私密性。

接下来，OpenAI 的研究者给它下达了一项新任务：用 StubHub 买四张本周末旧金山勇士队比赛、票价 500 以下的门票。

非常真实的是，Operator 小翻车了一下。

那就让它试试，买明早圣玛丽澳网公开赛的门票。Operator 立马打开引擎，展开搜索。

随后，研究者们让 Operator 定 10 个中等披萨，指令发出后，它会主动向人类确认任务。

而在实际购买时，也会需要人类登录自己的账号，才能完成下一步操作。

问题来了：如果 Operator 买错东西、订错酒店了怎么办呢？不用担心，这种情况下，人类需要随时确认，它才能继续行动。

如果它遇到诈骗网站，对此还会有一个提示注入监视器，功能跟防病毒软件一样，可以观察和监视它的操作，遇到可疑之处立马停止。

L3 级 AGI 达成，开启下一场人机交互革命

‍

‍支撑 Operator 的核心技术 Computer-Using Agent（CUA），被训练用于与图形用户界面 GUI（在屏幕上看到的按钮、菜单和文本框）进行交互，就像人类一样。这就让它具有了很高的灵活性，无需依赖操作系统或特定网页 API，从而能够完成各种数字化任务。

‍更进一步的，通过将高级 GUI 感知与结构化问题解决能力结合在一起，CUA 还可以将任务分解为多步骤计划，并在遇到挑战时自适应纠错。

CUA 能够如此之强，是因为建立在 OpenAI 多年关键研究——多模态、推理和安全性领域基础之上。通过融合 GPT-4o 的视觉能力、深度推理技术和创新的强化学习方法，研发团队攻克了 AI 操作计算机的诸多技术难关。

其最大的突破在于，实现了通用界面。

传统 AI 往往被局限于专门的 API，而 CUA 可以像人类一样操作任何软件工具。这意味着，AI 能适应几乎所有的计算机环境，解决 AI 长期以来难以触及的「长尾」数字使用场景。

还记得此前，彭博爆料的 OpenAI 内部 AGI 路线图吗？Operator 的出世，意味着 L3 级智能体时代正式开启！

下一个目标，OpenAI 还将扩展智能体的动作空间。接下来几周 / 几个月，我们还将会看到更多的智能体。

此外，他们还计划开放 API 接口，让开发者能够基于 CUA 构建自定义的计算机智能体。

OpenAI 下场智能体 Operator，或许将成为下一场人机交互革命的起点。

计算机使用智能体：AI 与数字世界交互的通用界面

那么，CUA 具体是如何工作的？

技术报告：cdn.openai.com/operator_sy…

如下是它的工作原理图，CUA 会通过处理「原始像素数据」来理解屏幕上显示的内容，并使用虚拟鼠标和键盘完成操作。

它可以执行多步骤任务、应对错误并适应意外变化。

基于这些优势，使得 CUA 能够在各种数字环境中发挥作用，比如填写表单和浏览网站，而无需依赖特定的 API。

根据用户的指令，CUA 通过一个结合感知、推理和行动的迭代循环来运行：

**感知：**从计算机截取的屏幕快照被添加到模型的上下文中，为其提供当前计算机状态的视觉参考。
**推理：**CUA 使用思维链（CoT）推断下一步操作，同时考虑当前和过去的屏幕快照及其执行的操作。这种内在独白通过让模型评估观察内容、跟踪中间步骤并进行动态调整来提高任务完成的效果。
**行动：**CUA 执行操作——点击、滚动或输入——直到判断任务完成或需要用户输入。尽管它可以自动完成大多数步骤，但对于敏感操作（如输入登录信息或处理验证码表单），CUA 会寻求用户确认。