语言如何驱动Agent生成“新世界系统”
本文是对OpenAI研究员姚顺雨访谈内容的一次全面而深入的总结,访谈源于张小珺商业访谈录《独家对话OpenAI姚顺雨:生成新世界的系统》。【AI大模型教程】
访谈围绕Agent研究的本质、AI范式转移、OpenAI的策略以及对创业公司和未来的展望展开,核心是语言驱动的Agent如何构建一个“生成新世界的系统”。
核心观点总结:语言驱动Agent与非共识之路
姚顺雨的经历和研究都体现了“非共识”的路径,他一直致力于Agent(智能体)研究,并坚信语言是实现泛化和开放世界决策的本质工具。
1. Agent的本质:语言是为泛化而生的工具
- • 非共识起点: 2018年选择让语言模型玩游戏,而不是当时主流的BERT。
- • 开放世界的本质: 真实世界的行为空间是开放的(open-ended),传统NLP的有限选项无法应对。
- • 语言的特殊性: 语言是一个通用性(general-purpose) 工具,学会它能实现跨领域的学习、思考和 泛化,这是火、轮子等工具无法比拟的。
- • 范式转移: AI已经历了符号主义AI(规则驱动)和深度强化学习(试错学习+环境特定)的瓶颈,现在进入语言驱动Agent(推理+语言先验+工具)的时代,实现了跨领域泛化。
AI智能体演进:三次范式转移
Agent能力的分级与三大瓶颈
OpenAI将AI能力分为五级(Chatbot → Reasoner → Agent → Innovator → Organizer)。从Agent(Level 3)向更高层级发展,需要突破三大关键能力:长期记忆、内生奖励、多智能体协作。
OpenAI智能体能力层级框架与核心要素
1. 长期记忆(Long-term Memory)
- • 核心瓶颈: 模型最大的瓶颈不是推理能力,而是缺少完整的Context。
- • 人与AI的区别: 人类社会的许多Context(如行为习惯、未成文的共识)只存在于人的大脑,由一个分布式系统维护,而AI缺少这种环境中的“沉浸式”Context。
- • 环境即记忆: 引用冯·诺依曼的观点——“环境永远是记忆层级中最外层的部分。”(The Environment is always the most outer part of the Memory Hierarchy.)
2. 内生奖励(Intrinsic Reward)
- • Innovator的核心: 创新者在创造被证明的价值前,没有任何外部奖励或反馈,需要自我激励(类似婴儿的好奇心)。
- • 机制设计难题: 如何为AI玩语言游戏设计有效的内在激励机制,目前尚无定论。
3. 多智能体(Multi-Agent)
- • 组织与协作: Level 5(Organizer)的能力是解决Agent之间如何协作,以及如何让**多智能体协作规模化(scale)**的问题。
- • 重要性: 人类社会最崇拜两种人:创造新东西的人和创造新组织的人(如马斯克、乔布斯),这表明组织协作能力和个体创造力一样重要。
方法论与任务设计的艺术
1. ReAct的价值:简单与通用性
- • 核心思想: 将推理(Reasoning)和行动(Action)结合起来:
Thought → Action → Observation → Thought → ... - • 价值体现: 强调做简单通用的方法和有实际价值的任务。在模型能力被大公司垄断的情况下,研究“如何使用模型”更有价值。
语言:实现泛化的通用工具系统架构
2. 任务评估框架:Pass@k vs Pass^k
姚顺雨提出了两个重要的评估框架,强调根据应用场景选择不同的容错标准:
任务评估框架:Pass@k vs Pass^k
- • 奖励原则: Reward应基于结果,不基于过程;应是白盒的、可计算的,以避免因优化人的偏好或模型的偏好而产生投机取巧(hacking)。
3. Code:机器的“手”
- • Code的地位: Code就像人的手,是数字Agent最重要的affordance(环境给予行动者的可能性),因为它是天然为机器使用的表达形式。
- • 创新: 通过InterCode等工作,将编程任务构造成一个多轮Agent task,把执行结果反馈给模型,使其更具Agent特性。
创业与未来的图景
创业与未来的图景
1. 创业公司的机会:设计不同的Interface
- • Super App的机会: 创业公司最大的机会是设计不同于ChatGPT的交互方式(interface)。
- • 超越ChatGPT的交互: ChatGPT是拟人化的交互。Cursor等通过创造非拟人化的、像Copilot(副驾驶)一样的新交互,创造了巨大价值。
- • 核心挑战: 要找到那个和ChatGPT形态很不一样的Super App,因为一旦公司有了Super App,所有事都会围绕它重构。
超级应用生态系统与创业机会地图
2. 模型公司与应用公司的博弈:相互抄袭
- • 非单向垄断: 世界并非会被模型公司单极垄断,而是一个相互抄袭的关系。
- • 力量平衡: 智能的边界将由不同Super App共同定义,而不是由一家机构定义。
3. OpenAI的赌注:GPT的非共识选择
- • Different Bet: OpenAI为了超越DeepMind,必须有一个不同的赌注。GPT在当时是一个反共识的决定,Ilya的最大贡献是他是那个号召大家All in这个方向的人。
- • 下一个赌注: 长期记忆、内生奖励、多智能体协作。
4. 终极思考
- • 价值为王: 对创业者而言,最重要的是“想清楚你的价值是什么”——为用户带来了什么样的增量价值。
- • 人与Agent的关系: Agent的出现不是替代,而是会带来三种主要场景:情感陪伴(拟人化)、专业助手(任务导向)、生态平台(非拟人化基础设施)。
姚顺雨的个人愿景: 希望通过探索新的、根本性的研究,或创造一种完全不同的产品形态,对世界创造一些不同。他相信“这个时代再激进也不叫激进——Anything is possible。”
💡 继续思考
在你自己的领域,你认为什么样的交互方式可能成为beyond ChatGPT的创新?
你会如何利用 Agent 的泛化能力解决你工作中的Pass^k(零容忍)问题?