罗福莉曾任职阿里达摩院、DeepSeek,目前是小米大模型团队负责人,主导研发了MiMo-V2系列模型。
一倍速度听完了这次长 达3.5 小时的访谈
罗福莉对当下有一些关键的技术判断:
- Anthropic的路径是正确的,这是当下共识。
- 2026年是生产力加速变革的一年
- 大模型竞争已经进入第二幕。
第一幕是 Chat 时代,第二幕是 Agent 时代。
第一幕主要靠:Pre-train(预训练)、短上下文、Chat交互;
而第二幕开始转向:Agent、长程任务、Tool use、后训练(Post-train)、RL scaling- 用卡比例正在变化,Chat 时代,研究、预训练、后训练的用卡比例大概是 3:5:1。 到了 Agent 时代,更像是 3:1:1
- Pre-train 的代差已经没那么大了。中美模型代差只有 2-3 个月
- 1T 基座模型会成为入场券
- 上下文的重要性会越来越夸张
- 推理需求会爆炸,竞争会外溢到能源和芯片
1T 基座模型会成为入场券,我的理解是:到了 Agent 时代,基础智能必须足够强,后面的 Agent 能力才能拉得起来。就像一个连火候都看不懂的人,很难靠厨房流程把他变成大厨。
对我冲击最大的一个点,也是我觉得特别真实的点是,罗福莉提到,她原来一直觉得自己做的工作已经足够有创造力,不会被 workflow 化。结果发现--竟然也能。
她由此提出一个更激进的判断:
- 未来模型可能也能训练出人类能训练出的模型,甚至训练出更强模型,自己左脚踩右脚就提升了
之前我们聊的 同一个Agent,为什么换模型之后效果差很多
直觉是没错,但是有几个认知点需要更新下
之前我理解的预训练、对齐, 对齐在专业术语里,叫 后训练
之前我理解的 opus 会针对 claude code 优化、chatgpt 会针对 codex优化,大头的针对性的优化应该在后训练中,而非预训练中
还有个点超过我的想象的是,模型的迭代速度
预训练,目前至少要2个月才能迭代一版模型
后训练,1个月就能迭代一版模型
可以预见,Agent、大模型更新会越来越快。
在当前 Agent = Model + Harness 的范式下,后训练越来越重要。
如果把 Agent 这事比作做菜。
那预训练就像,小时候天天看家里人做饭。
知道:红烧肉要放酱油;炒菜火不能太小;盐放多了会齁
脑子里其实懂很多,但真正难的,还是自己站到灶台前,什么时候放盐;什么时候收治;什么时候该转火。
这些东西,不是知道就够的,更像一种干活时慢慢养出来的感觉。
之前聊的大模型跟工具共同进化,形成行为闭环,也能更新了,可以升级为双闭环 Agent 的共同进化,本质上是在同时喂养:预训练、后训练;只是两者吃的数据、作用方式不一样
以前是人给模型提供数据,现在开始变成: 人 + AI 一起生成数据
比如 AI coding、AI workflow、 AI spec drafting 等
这些数据天然带有 Agent 工作痕迹,于是下一代模型会越来越:会协作、会调用工具、会 workflow、会拆任务
对 Code Agent 我次有了新的理解,也不能说新吧,严格来说是更清晰了。
之前我以为大家都在卷 Code Agent,主要还是因为商业价值。毕竟程序员是目前,最高频、最容易接受 AI、也最愿意付费的一批用户。
而且 Code Agent 确实能直接提高效率
但听完这次访谈后,我能把之前模糊的想法给描述清楚了:Code Agent 的意义,可能远不止商业化。
它更像, Agent 时代最核心的训练场
因为 code 场景有个特别大的优势:反馈极其明确。
代码,能不能运行;测试过没过;patch有没有问题。
这些几乎都能自动验证。
这意味着, 模型可以在这个场景里, 持续获得非常高质量的反馈数据。
而这些数据又会同时进入,预训练;后训练。 形成一个非常强的闭环。
另外还有个我以前没太意识到的点,Code Agent 其实测的已经不只是代码能力了,而是:
- 长任务一致性
- workflow
- tool use
- 错误恢复
- 上下文管理
这些更底层的 Agent 能力。
某种程度上,如果 Code Agent 能做好,很多别的 Agent 能力,也会跟着泛化出来。
现在再回头看,Code Agent 之所以成为兵家必争之地。
可能不只是因为,程序员愿意付费。
还有,它同时是:
- 最好的 Agent 训练场
- 最容易形成数据闭环的场景
- 以及最容易泛化通用 Agent 能力的地方。
Agent 时代真正稀缺的,可能不再只是知识。而是,在复杂环境里持续完成任务的能力。
因为,知识可以压缩;prompt 可以复制;workflow 可以传播。
但是,长程一致性、错误恢复、上下文维持、多工具协作、环境反馈学习。这些才开始变成新的核心能力。
而 Code Agent 恰好是最容易训练这些能力的地方。
其实我还有很多想聊的,比如罗福莉信奉环境比经验更重要,这个我可能会单独聊聊这个事,因为这给了我很大的鼓励,我有时在学习上有种不真实感,知识获得的不真实感,或许我得想更清楚一点
我真的有很多想聊的,就像写文章之前我没有去想标题,信马由缰写到这,回头一看,有一个完整的故事了,没必要在这篇文章下继续写什么了。按照文章大意让 AI 严肃的拟了个标题,我不是很喜欢,但比我能想到的要好了。
想详细了解的可以听听这次访谈的播客,www.xiaoyuzhoufm.com/episode/69e…
以及