Al Agent 的下一站:Co-Innovator

30 阅读9分钟

各位股东,大家好呀,我是 Warren。

今天咱们聊点硬核又前沿的东西——AI Agent 如何从简单的工具进化成能和咱们一起搞创新的“共同创造者”。最近在 AI Engineer Summit 上,来自 OpenAI(之前也在 Anthropic 干过)的研究员 Karina Nguyen 分享了不少干货,信息量爆炸。

Karina 这次分享的主题是“Creating Agents That Co-Create”,探讨了 AI Agent 发展的核心驱动力、产品研发中的经验教训,以及对未来的展望。

两大核心:推动 AI 发展的“扩展范式”

Karina 认为,过去几年 AI 研究领域,尤其是大模型这块,有两个主要的“扩展范式”(Scaling Paradigms)起到了关键作用,它们解锁了前沿产品的研究方向。

范式一:下一个 Token 预测——世界构建机器

这第一个范式,老铁们可能更熟悉它的另一个名字:预训练(Pre-training) 。Karina 把这玩意儿比作“世界构建机器”(World-building machine)。

啥意思呢?就是模型通过预测序列中的下一个“Token”(可以是一个词、一个字符、甚至一个像素点)来学习理解这个世界。因为很多事情的发生是有因果关系的(比如物理定律),模型为了能准确预测接下来会发生什么(下一个 Token 是啥),就必须得理解这个世界的基本运行规律。

这本质上是一种大规模多任务学习(Massive multi-task learning) 。模型在预训练过程中,接触海量的、各种各样的数据(文本、代码、图片等),被动地学习各种任务。

03:25.840

有些任务相对简单,比如翻译(“boarding”的法语是啥?),或者基础的地理知识(法国的首都是?)。这些信息在网上随处可见,模型学起来比较容易。

但有些任务就难多了,比如:

  • 物理: 理解牛顿第二定律(力等于质量乘以加速度)。
  • 空间推理: 如果你面朝北,向右转 90 度,你现在朝哪个方向?(虽然现在模型空间推理还不完美)
  • 数学: 计算复杂的数学表达式。
  • 写作风格与情节: 理解并模仿特定作家的风格,比如简·奥斯汀,并保持情节连贯。

这些复杂的任务需要模型具备更深层次的理解和推理能力,也就意味着——你需要更多的算力(Compute) !这就是为啥大家都在疯狂堆算力搞预训练,因为只有算力上去了,模型才能在这些更难的任务上表现更好,才能真正“理解世界”。

范式二:基于思维链(CoT)的强化学习扩展——推理能力的飞跃

光靠预训练还不够,尤其是要让模型在复杂推理任务上更上一层楼。这时候,第二个范式就登场了:在思维链(Chain-of-Thought, CoT)上扩展强化学习(Reinforcement Learning, RL)

简单说,思维链就是让模型在回答问题前,先一步一步地把思考过程写出来。而强化学习则通过给模型的“思考过程”和最终答案打分(奖励或惩罚),来教模型如何更好地思考和推理。

06:53.860

Karina 展示了 OpenAI 的研究成果(o1 模型),证明了通过在 CoT 上应用 RL,模型的推理能力(尤其是在训练和测试时都增加计算量的情况下)得到了显著提升。模型不仅学会了“怎么想”,还能在“想”的过程中不断优化。

这个范式的厉害之处在于,它让模型能够投入更多的“思考时间”(计算资源)来解决难题。这就引出了一个新的交互模式:流式思维(Streaming model's thoughts)

08:56.810

与其让用户干等模型思考半天,不如把模型的“思考过程”实时地流式传输给用户。这样用户就能看到模型正在“想什么”,增加了透明度,也为更复杂的交互打下了基础。

从产品实践看 Agent 的进化

这些底层的研究突破,最终都体现在了我们能用到的产品上。Karina 分享了她在 Anthropic (Claude) 和 OpenAI (ChatGPT) 的一些经验。

Autocomplete (Tab Tab Tab) - 预训练的直接应用

像 GitHub Copilot、Cursor 这类代码补全工具,就是预训练范式的直接受益者。它们在海量的代码(数十亿 Token)上进行预训练,学会了代码的模式和结构。

05:19.720

但光靠预训练生成的代码可能不太好用。所以还需要基于人类反馈的强化学习(RLHF) 进行“后期调教”(Post-training),让模型更好地:

  • 补全函数体
  • 理解文档字符串 (docstrings)
  • 生成多行代码补全
  • 预测代码差异 (predicting diffs)

100K 上下文 - 把“超能力”装进熟悉的形式

长上下文处理能力(比如 Claude 的 100K 上下文)是一种“不熟悉的能力”,因为以前的模型做不到。但怎么让用户方便地使用这种能力呢?答案是把它融入“熟悉的形式”。

13:39.058

比如,直接在聊天界面提供文件上传功能。用户上传一份几十页的财报(比如 Netflix 的 10-K),然后就能像聊天一样,让模型去阅读、分析、总结。这种“不熟悉的能力 + 熟悉的形式”的结合,极大地降低了使用门槛。

ChatGPT Tasks - 模块化组合的力量

ChatGPT Tasks 功能(虽然演示中没细说,但可以理解为类似 Zapier 或 IFTTT 的概念)展示了另一种产品思路:模块化组合(Modular Compositions)

14:18.858

用户可以把一些熟悉的操作(比如“每天早上 9:30 提醒我”)和 AI 的能力(比如“写一个新的科幻故事”)组合起来,创建自动化任务。这使得 AI 的能力能够以更灵活、更强大的方式被整合进现有的工作流中。

实时交互 vs. 异步任务 - 新的设计挑战

随着 Agent 能力越来越强,可以执行更复杂的、耗时更长的任务(比如跑几小时的代码生成、做深度研究),一个新的设计挑战出现了:如何平衡用户的实时交互需求和模型的异步任务完成能力?

15:40.040

总不能让用户一直盯着屏幕等 AI 干完活吧?这就需要新的交互设计,比如前面提到的“流式思维”展示,或者更好的任务管理和通知机制。

信任是瓶颈,协作是未来

Karina 强调,随着 AI Agent 越来越强大、越来越自主,信任(Trust) 成为了最大的瓶颈。

15:58.170

我们怎么才能相信 AI Agent 做出的决策和执行的操作是可靠的、符合我们预期的?

解决方案在于人机协作。我们需要设计新的协作界面和机制(Collaborative Affordances),让用户能够:

  • 验证/编辑 模型的输出和思考过程。
  • 提供实时反馈,帮助模型自我改进。

从研究助理到共同创新者

Karina 展示了一个例子:使用 AI 来辅助进行科学研究,比如分析模型校准(Model Calibration)的论文。AI 不再仅仅是查找资料的工具,而是可以深入理解论文内容,提取关键信息,甚至对研究方法提出见解,真正成为研究人员的“共同创新者”(Co-innovator)。

20:03.970

未来已来:Agent 的无限可能

Karina 最后展望了 AI Agent 的未来发展方向:

  1. 人人都能创造软件 (Invisible software creation for all): 未来可能不需要写代码,普通用户通过自然语言描述就能让 AI 创建定制化的工具和应用。
  2. 个性化多模态输出 / 即时生成娱乐: AI 可以根据你的偏好和情境,实时生成个性化的图像、音乐、游戏等。
  3. 自适应空白画布 (Blank canvas that self-morphs): 未来的交互界面可能不再是固定的,而是一个能根据你的意图和任务动态变化的“画布”。
  4. 共同创新 (Co-innovation): 人类和 AI 在创意方向上进行合作,共同完成小说写作、电影制作、游戏设计、科学发现、知识创造等复杂任务。

Warren 的一点思考

听完 Karina 的分享,我深以为然,也有几点感触特别深:

  1. 两大范式确实是基石: “预训练 + 思维链强化学习” 这两条腿走路,确实解释了当前大模型能力飞跃的核心逻辑。预训练打基础、学知识,RLHF/RL on CoT 调方向、练推理,缺一不可。
  2. 产品研究是关键桥梁: 再牛的技术,最终还是要落地到产品,让大家用起来。怎么把模型那些“不明觉厉”的能力(长上下文、复杂推理、工具使用),用一种用户熟悉、易于理解的方式呈现出来(聊天、文件上传、自动化任务),这里面大有文章可做,也是 AI 工程师和产品经理需要重点发力的地方。
  3. 人机协作是必然趋势: 随着 Agent 能力越来越强,单打独斗肯定不行了。怎么建立信任?怎么有效协作?这不仅仅是技术问题,更是交互设计、产品形态,甚至社会规范的问题。未来的人机关系,一定是深度协作、共同进化的。Canvas 这种产品形态,让 AI 成为编辑器、评论家、研究伙伴,就是很好的探索方向。
  4. 创造力的新边界: 从辅助写作、写代码,到生成游戏、辅助科研,甚至未来参与电影制作、科学发现,AI Agent 正在不断拓展创造力的边界。AI 不再仅仅是工具,而是真正意义上的“Co-Innovator”,这太令人兴奋了!

总而言之,AI Agent 的发展日新月异,从简单的助手到潜在的创新伙伴,未来充满了想象空间。