Al Agent 的下一站：Co-Innovator各位股东，大家好呀，我是 Warren。今天咱们聊点硬核又前沿的东

各位股东，大家好呀，我是 Warren。

今天咱们聊点硬核又前沿的东西——AI Agent 如何从简单的工具进化成能和咱们一起搞创新的“共同创造者”。最近在 AI Engineer Summit 上，来自 OpenAI（之前也在 Anthropic 干过）的研究员 Karina Nguyen 分享了不少干货，信息量爆炸。

Karina 这次分享的主题是“Creating Agents That Co-Create”，探讨了 AI Agent 发展的核心驱动力、产品研发中的经验教训，以及对未来的展望。

两大核心：推动 AI 发展的“扩展范式”

Karina 认为，过去几年 AI 研究领域，尤其是大模型这块，有两个主要的“扩展范式”（Scaling Paradigms）起到了关键作用，它们解锁了前沿产品的研究方向。

范式一：下一个 Token 预测——世界构建机器

这第一个范式，老铁们可能更熟悉它的另一个名字：预训练（Pre-training） 。Karina 把这玩意儿比作“世界构建机器”（World-building machine）。

啥意思呢？就是模型通过预测序列中的下一个“Token”（可以是一个词、一个字符、甚至一个像素点）来学习理解这个世界。因为很多事情的发生是有因果关系的（比如物理定律），模型为了能准确预测接下来会发生什么（下一个 Token 是啥），就必须得理解这个世界的基本运行规律。

这本质上是一种大规模多任务学习（Massive multi-task learning） 。模型在预训练过程中，接触海量的、各种各样的数据（文本、代码、图片等），被动地学习各种任务。

03:25.840

有些任务相对简单，比如翻译（“boarding”的法语是啥？），或者基础的地理知识（法国的首都是？）。这些信息在网上随处可见，模型学起来比较容易。

但有些任务就难多了，比如：

物理： 理解牛顿第二定律（力等于质量乘以加速度）。
空间推理： 如果你面朝北，向右转 90 度，你现在朝哪个方向？（虽然现在模型空间推理还不完美）
数学： 计算复杂的数学表达式。
写作风格与情节： 理解并模仿特定作家的风格，比如简·奥斯汀，并保持情节连贯。

这些复杂的任务需要模型具备更深层次的理解和推理能力，也就意味着——你需要更多的算力（Compute） ！这就是为啥大家都在疯狂堆算力搞预训练，因为只有算力上去了，模型才能在这些更难的任务上表现更好，才能真正“理解世界”。

范式二：基于思维链（CoT）的强化学习扩展——推理能力的飞跃

光靠预训练还不够，尤其是要让模型在复杂推理任务上更上一层楼。这时候，第二个范式就登场了：在思维链（Chain-of-Thought, CoT）上扩展强化学习（Reinforcement Learning, RL） 。

简单说，思维链就是让模型在回答问题前，先一步一步地把思考过程写出来。而强化学习则通过给模型的“思考过程”和最终答案打分（奖励或惩罚），来教模型如何更好地思考和推理。

06:53.860

Karina 展示了 OpenAI 的研究成果（o1 模型），证明了通过在 CoT 上应用 RL，模型的推理能力（尤其是在训练和测试时都增加计算量的情况下）得到了显著提升。模型不仅学会了“怎么想”，还能在“想”的过程中不断优化。

这个范式的厉害之处在于，它让模型能够投入更多的“思考时间”（计算资源）来解决难题。这就引出了一个新的交互模式：流式思维（Streaming model's thoughts） 。

08:56.810

与其让用户干等模型思考半天，不如把模型的“思考过程”实时地流式传输给用户。这样用户就能看到模型正在“想什么”，增加了透明度，也为更复杂的交互打下了基础。

从产品实践看 Agent 的进化

这些底层的研究突破，最终都体现在了我们能用到的产品上。Karina 分享了她在 Anthropic (Claude) 和 OpenAI (ChatGPT) 的一些经验。

Autocomplete (Tab Tab Tab) - 预训练的直接应用

像 GitHub Copilot、Cursor 这类代码补全工具，就是预训练范式的直接受益者。它们在海量的代码（数十亿 Token）上进行预训练，学会了代码的模式和结构。

05:19.720

但光靠预训练生成的代码可能不太好用。所以还需要基于人类反馈的强化学习（RLHF） 进行“后期调教”（Post-training），让模型更好地：

补全函数体
理解文档字符串 (docstrings)
生成多行代码补全
预测代码差异 (predicting diffs)

100K 上下文 - 把“超能力”装进熟悉的形式

长上下文处理能力（比如 Claude 的 100K 上下文）是一种“不熟悉的能力”，因为以前的模型做不到。但怎么让用户方便地使用这种能力呢？答案是把它融入“熟悉的形式”。

13:39.058

比如，直接在聊天界面提供文件上传功能。用户上传一份几十页的财报（比如 Netflix 的 10-K），然后就能像聊天一样，让模型去阅读、分析、总结。这种“不熟悉的能力 + 熟悉的形式”的结合，极大地降低了使用门槛。

ChatGPT Tasks - 模块化组合的力量

ChatGPT Tasks 功能（虽然演示中没细说，但可以理解为类似 Zapier 或 IFTTT 的概念）展示了另一种产品思路：模块化组合（Modular Compositions） 。

14:18.858

用户可以把一些熟悉的操作（比如“每天早上 9:30 提醒我”）和 AI 的能力（比如“写一个新的科幻故事”）组合起来，创建自动化任务。这使得 AI 的能力能够以更灵活、更强大的方式被整合进现有的工作流中。

实时交互 vs. 异步任务 - 新的设计挑战

随着 Agent 能力越来越强，可以执行更复杂的、耗时更长的任务（比如跑几小时的代码生成、做深度研究），一个新的设计挑战出现了：如何平衡用户的实时交互需求和模型的异步任务完成能力？

15:40.040

总不能让用户一直盯着屏幕等 AI 干完活吧？这就需要新的交互设计，比如前面提到的“流式思维”展示，或者更好的任务管理和通知机制。

信任是瓶颈，协作是未来

Karina 强调，随着 AI Agent 越来越强大、越来越自主，信任（Trust） 成为了最大的瓶颈。

15:58.170

我们怎么才能相信 AI Agent 做出的决策和执行的操作是可靠的、符合我们预期的？

解决方案在于人机协作。我们需要设计新的协作界面和机制（Collaborative Affordances），让用户能够：

验证/编辑 模型的输出和思考过程。
提供实时反馈，帮助模型自我改进。

从研究助理到共同创新者

Karina 展示了一个例子：使用 AI 来辅助进行科学研究，比如分析模型校准（Model Calibration）的论文。AI 不再仅仅是查找资料的工具，而是可以深入理解论文内容，提取关键信息，甚至对研究方法提出见解，真正成为研究人员的“共同创新者”（Co-innovator）。

20:03.970

未来已来：Agent 的无限可能

Karina 最后展望了 AI Agent 的未来发展方向：

人人都能创造软件 (Invisible software creation for all): 未来可能不需要写代码，普通用户通过自然语言描述就能让 AI 创建定制化的工具和应用。
个性化多模态输出 / 即时生成娱乐: AI 可以根据你的偏好和情境，实时生成个性化的图像、音乐、游戏等。
自适应空白画布 (Blank canvas that self-morphs): 未来的交互界面可能不再是固定的，而是一个能根据你的意图和任务动态变化的“画布”。
共同创新 (Co-innovation): 人类和 AI 在创意方向上进行合作，共同完成小说写作、电影制作、游戏设计、科学发现、知识创造等复杂任务。

Warren 的一点思考

听完 Karina 的分享，我深以为然，也有几点感触特别深：

两大范式确实是基石: “预训练 + 思维链强化学习” 这两条腿走路，确实解释了当前大模型能力飞跃的核心逻辑。预训练打基础、学知识，RLHF/RL on CoT 调方向、练推理，缺一不可。
产品研究是关键桥梁: 再牛的技术，最终还是要落地到产品，让大家用起来。怎么把模型那些“不明觉厉”的能力（长上下文、复杂推理、工具使用），用一种用户熟悉、易于理解的方式呈现出来（聊天、文件上传、自动化任务），这里面大有文章可做，也是 AI 工程师和产品经理需要重点发力的地方。
人机协作是必然趋势: 随着 Agent 能力越来越强，单打独斗肯定不行了。怎么建立信任？怎么有效协作？这不仅仅是技术问题，更是交互设计、产品形态，甚至社会规范的问题。未来的人机关系，一定是深度协作、共同进化的。Canvas 这种产品形态，让 AI 成为编辑器、评论家、研究伙伴，就是很好的探索方向。
创造力的新边界: 从辅助写作、写代码，到生成游戏、辅助科研，甚至未来参与电影制作、科学发现，AI Agent 正在不断拓展创造力的边界。AI 不再仅仅是工具，而是真正意义上的“Co-Innovator”，这太令人兴奋了！

总而言之，AI Agent 的发展日新月异，从简单的助手到潜在的创新伙伴，未来充满了想象空间。