你家模型会"听人话"吗？DeepMind 的 RL2F 让 AI 学会在对话中变聪明上周看到 DeepMind 出了篇新

上周看到 DeepMind 出了篇新论文，标题挺学术——"Improving Interactive In-Context Learning from Natural Language Feedback"。但看完之后我直呼好家伙，这玩意儿可能比我想象的更有意思。

简单说，它解决了一个我们都遇到过的问题：AI 明明懂，但就是不听你说话。

一个让人抓狂的场景

你是不是也遇到过这种对话：

你：这个问题答案不对，你考虑一下 X 的情况。
AI：好的，我重新思考一下...（输出一模一样的答案）
你：你再仔细看看 X。
AI：嗯，我理解了...（还是同样的答案）
你：......

这种时候真的很想砸电脑。不是模型不懂——它可能完全有能力答对——但它就是不愿意改。就像一个死要面子的同事，你指出了问题，它嘴上说"收到"，然后原封不动交上来。

DeepMind 的研究发现，这其实是当前大模型的一个系统性缺陷。它们训练的时候，只学过"看数据 → 输出答案"，从来没学过"听人说话 → 改变想法"。

论文提出了一个框架叫 RL2F（Reinforcement Learning with Language Feedback），名字有点绕，但思路很直白：

把"从反馈中学习"当成一种能力来训练。

他们的做法挺聪明。不是让模型直接背答案，而是设计了一个"师生对话"的训练场景：

关键是：老师和学生可以用同一个模型。只需要"信息不对称"——老师知道答案，学生不知道。不需要一个更强的大模型来当老师，这点让我挺意外的。

说实话，看完数据我有点被震惊到。

他们用 Gemini 2.5 Flash（中等大小的模型）做了实验，通过 RL2F 训练后，在数学题上的表现接近了 Gemini 2.5 Pro（那个大一号的旗舰模型）。

这什么概念？相当于一个中等生，学会了"听老师讲题"这个技能后，成绩追上了尖子生。

更离谱的是泛化能力。只用数学题训练，模型在编程、逻辑推理、甚至迷宫导航上的表现都变好了。平均提升 5-7%，某些任务甚至涨了十几个百分点。

作者管这叫"in-context plasticity"——上下文可塑性。我理解就是模型变得不那么"固执"了，愿意根据新信息调整自己的思路。

论文放了一段对话对比，我觉得特别能说明问题。

同一个偏微分方程的问题：

没训练过的模型：

RL2F 训练后的模型：

这就是"会学习"和"只会输出"的区别。

论文最后还讲了一个更有意思的应用。

如果让模型学会预测"老师会怎么批评它"，会发生什么？

答案是：模型可以自己给自己当老师了。

训练的时候，模型不仅学学生怎么改答案，还学老师怎么挑毛病。等到推理的时候，它就能自己批评自己、自己改进自己——成了一个"自学者"（autodidact）。

实验显示，这种自我对话的效果甚至比有一个真正的老师还好。作者推测是因为训练时的高质量反馈"教会"了模型怎么自我审视，避免了那种"自我感觉良好"的死循环。

说实话，我觉得这个研究的意义可能比表面上看起来更大。

首先是效率。如果用户说一句"你这个不对，考虑一下 X"，模型真能听进去改了，那省下的时间难以估量。现在很多时候不是模型不懂，是它不愿改，你得变着法子"骗"它答对。

其次是成本。中等模型学会了"听话"，能达到大模型的水平，这对推理成本的影响是巨大的。

最后是持续学习。虽然这篇论文还没解决"把对话中学到的知识固化下来"这个问题，但它指明了一条路：AI 不一定只能靠喂数据变强，也可以靠"学会怎么学习"。

看完这篇论文，我想到一个问题：为什么我们之前没这么做过？

我觉得可能是因为，整个 AI 社区太习惯于"静态训练范式"了。收集数据、清洗数据、训练模型、评估模型——这套流程已经固化了我们的思维。"模型如何在对话中动态适应"这种问题，很容易被当成"后期优化"而不是"核心能力"。

DeepMind 这篇论文的价值在于，它把这个"后期优化"提出来，说：嘿，这也是一种可以训练的核心能力。

而且它的训练成本并不高——不需要特殊的数据，只需要把现有的可验证任务（比如数学题、编程题）转化成多轮对话形式就行。

如果你只想记住一件事，那就是：让模型"会听话"是可以训练的，而且这个能力可以泛化到各种领域。

论文地址：arXiv:2602.16066

代码实现：github.com/yuanjiayiy/rl2f

写这篇文章的时候我还在想：如果以后所有模型都学会了"听话"，那些"提示词工程"的技巧会不会就没用了？毕竟，模型要是真能听懂人话，我还费那劲想什么"思维链"、"角色扮演"干什么...

算了，想太多，先把这篇发了再说。