语言如何驱动Agent生成“新世界系统”语言如何驱动Agent生成“新世界系统” 本文是对OpenAI研究员姚顺雨访谈内

语言如何驱动Agent生成“新世界系统”

本文是对OpenAI研究员姚顺雨访谈内容的一次全面而深入的总结，访谈源于张小珺商业访谈录《独家对话OpenAI姚顺雨:生成新世界的系统》。【AI大模型教程】

访谈围绕Agent研究的本质、AI范式转移、OpenAI的策略以及对创业公司和未来的展望展开，核心是语言驱动的Agent如何构建一个“生成新世界的系统”。

姚顺雨的经历和研究都体现了“非共识”的路径，他一直致力于Agent（智能体）研究，并坚信语言是实现泛化和开放世界决策的本质工具。

• 非共识起点： 2018年选择让语言模型玩游戏，而不是当时主流的BERT。
• 开放世界的本质： 真实世界的行为空间是开放的（open-ended），传统NLP的有限选项无法应对。
• 语言的特殊性： 语言是一个通用性（general-purpose） 工具，学会它能实现跨领域的学习、思考和泛化，这是火、轮子等工具无法比拟的。
• 范式转移： AI已经历了符号主义AI（规则驱动）和深度强化学习（试错学习+环境特定）的瓶颈，现在进入语言驱动Agent（推理+语言先验+工具）的时代，实现了跨领域泛化。

AI智能体演进：三次范式转移

OpenAI将AI能力分为五级（Chatbot → Reasoner → Agent → Innovator → Organizer）。从Agent（Level 3）向更高层级发展，需要突破三大关键能力：长期记忆、内生奖励、多智能体协作。

OpenAI智能体能力层级框架与核心要素

• 核心瓶颈： 模型最大的瓶颈不是推理能力，而是缺少完整的Context。
• 人与AI的区别： 人类社会的许多Context（如行为习惯、未成文的共识）只存在于人的大脑，由一个分布式系统维护，而AI缺少这种环境中的“沉浸式”Context。
• 环境即记忆： 引用冯·诺依曼的观点——“环境永远是记忆层级中最外层的部分。”（The Environment is always the most outer part of the Memory Hierarchy.）

• 组织与协作： Level 5（Organizer）的能力是解决Agent之间如何协作，以及如何让**多智能体协作规模化（scale）**的问题。
• 重要性： 人类社会最崇拜两种人：创造新东西的人和创造新组织的人（如马斯克、乔布斯），这表明组织协作能力和个体创造力一样重要。

• 核心思想： 将推理（Reasoning）和行动（Action）结合起来：Thought → Action → Observation → Thought → ...
• 价值体现： 强调做简单通用的方法和有实际价值的任务。在模型能力被大公司垄断的情况下，研究“如何使用模型”更有价值。

语言：实现泛化的通用工具系统架构

姚顺雨提出了两个重要的评估框架，强调根据应用场景选择不同的容错标准：

任务评估框架：Pass@k vs Pass^k

• 奖励原则： Reward应基于结果，不基于过程；应是白盒的、可计算的，以避免因优化人的偏好或模型的偏好而产生投机取巧（hacking）。

• Code的地位： Code就像人的手，是数字Agent最重要的affordance（环境给予行动者的可能性），因为它是天然为机器使用的表达形式。
• 创新： 通过InterCode等工作，将编程任务构造成一个多轮Agent task，把执行结果反馈给模型，使其更具Agent特性。

• Super App的机会： 创业公司最大的机会是设计不同于ChatGPT的交互方式（interface）。
• 超越ChatGPT的交互： ChatGPT是拟人化的交互。Cursor等通过创造非拟人化的、像Copilot（副驾驶）一样的新交互，创造了巨大价值。
• 核心挑战： 要找到那个和ChatGPT形态很不一样的Super App，因为一旦公司有了Super App，所有事都会围绕它重构。

超级应用生态系统与创业机会地图

• Different Bet： OpenAI为了超越DeepMind，必须有一个不同的赌注。GPT在当时是一个反共识的决定，Ilya的最大贡献是他是那个号召大家All in这个方向的人。
• 下一个赌注： 长期记忆、内生奖励、多智能体协作。

• 价值为王： 对创业者而言，最重要的是“想清楚你的价值是什么”——为用户带来了什么样的增量价值。
• 人与Agent的关系： Agent的出现不是替代，而是会带来三种主要场景：情感陪伴（拟人化）、专业助手（任务导向）、生态平台（非拟人化基础设施）。

姚顺雨的个人愿景： 希望通过探索新的、根本性的研究，或创造一种完全不同的产品形态，对世界创造一些不同。他相信“这个时代再激进也不叫激进——Anything is possible。”

在你自己的领域，你认为什么样的交互方式可能成为beyond ChatGPT的创新？

你会如何利用 Agent 的泛化能力解决你工作中的Pass^k（零容忍）问题？