你家模型会"听人话"吗?DeepMind 的 RL2F 让 AI 学会在对话中变聪明

8 阅读5分钟

上周看到 DeepMind 出了篇新论文,标题挺学术——"Improving Interactive In-Context Learning from Natural Language Feedback"。但看完之后我直呼好家伙,这玩意儿可能比我想象的更有意思。

简单说,它解决了一个我们都遇到过的问题:AI 明明懂,但就是不听你说话

一个让人抓狂的场景

你是不是也遇到过这种对话:

你:这个问题答案不对,你考虑一下 X 的情况。
AI:好的,我重新思考一下...(输出一模一样的答案)
你:你再仔细看看 X。
AI:嗯,我理解了...(还是同样的答案)
你:......

这种时候真的很想砸电脑。不是模型不懂——它可能完全有能力答对——但它就是不愿意改。就像一个死要面子的同事,你指出了问题,它嘴上说"收到",然后原封不动交上来。

DeepMind 的研究发现,这其实是当前大模型的一个系统性缺陷。它们训练的时候,只学过"看数据 → 输出答案",从来没学过"听人说话 → 改变想法"。

RL2F:让模型学会"听话"

论文提出了一个框架叫 RL2F(Reinforcement Learning with Language Feedback),名字有点绕,但思路很直白:

把"从反馈中学习"当成一种能力来训练

他们的做法挺聪明。不是让模型直接背答案,而是设计了一个"师生对话"的训练场景:

  • 给"老师"看答案(特权信息)
  • 让"学生"试着答题
  • 答错了,老师给提示(但不能直接说答案)
  • 学生根据提示再试
  • 如此往复,直到答对或者次数用完

关键是:老师和学生可以用同一个模型。只需要"信息不对称"——老师知道答案,学生不知道。不需要一个更强的大模型来当老师,这点让我挺意外的。

效果怎么样?

说实话,看完数据我有点被震惊到。

他们用 Gemini 2.5 Flash(中等大小的模型)做了实验,通过 RL2F 训练后,在数学题上的表现接近了 Gemini 2.5 Pro(那个大一号的旗舰模型)。

这什么概念?相当于一个中等生,学会了"听老师讲题"这个技能后,成绩追上了尖子生。

更离谱的是泛化能力。只用数学题训练,模型在编程、逻辑推理、甚至迷宫导航上的表现都变好了。平均提升 5-7%,某些任务甚至涨了十几个百分点。

作者管这叫"in-context plasticity"——上下文可塑性。我理解就是模型变得不那么"固执"了,愿意根据新信息调整自己的思路。

论文里一个很形象的对比

论文放了一段对话对比,我觉得特别能说明问题。

同一个偏微分方程的问题:

没训练过的模型

  • 第一次答错
  • 老师给提示
  • 还是同样的答案
  • 老师再提示
  • 继续重复...
  • 最后干脆不思考了,直接输出那个错误答案

RL2F 训练后的模型

  • 第一次答错
  • 老师给提示
  • 开始分析提示,尝试修正思路
  • 老师再提示
  • 成功整合信息,得出正确答案

这就是"会学习"和"只会输出"的区别。

自我改进:一个意外的惊喜

论文最后还讲了一个更有意思的应用。

如果让模型学会预测"老师会怎么批评它",会发生什么?

答案是:模型可以自己给自己当老师了

训练的时候,模型不仅学学生怎么改答案,还学老师怎么挑毛病。等到推理的时候,它就能自己批评自己、自己改进自己——成了一个"自学者"(autodidact)。

实验显示,这种自我对话的效果甚至比有一个真正的老师还好。作者推测是因为训练时的高质量反馈"教会"了模型怎么自我审视,避免了那种"自我感觉良好"的死循环。

这玩意儿有什么用?

说实话,我觉得这个研究的意义可能比表面上看起来更大。

首先是效率。如果用户说一句"你这个不对,考虑一下 X",模型真能听进去改了,那省下的时间难以估量。现在很多时候不是模型不懂,是它不愿改,你得变着法子"骗"它答对。

其次是成本。中等模型学会了"听话",能达到大模型的水平,这对推理成本的影响是巨大的。

最后是持续学习。虽然这篇论文还没解决"把对话中学到的知识固化下来"这个问题,但它指明了一条路:AI 不一定只能靠喂数据变强,也可以靠"学会怎么学习"。

一些想法

看完这篇论文,我想到一个问题:为什么我们之前没这么做过?

我觉得可能是因为,整个 AI 社区太习惯于"静态训练范式"了。收集数据、清洗数据、训练模型、评估模型——这套流程已经固化了我们的思维。"模型如何在对话中动态适应"这种问题,很容易被当成"后期优化"而不是"核心能力"。

DeepMind 这篇论文的价值在于,它把这个"后期优化"提出来,说:嘿,这也是一种可以训练的核心能力

而且它的训练成本并不高——不需要特殊的数据,只需要把现有的可验证任务(比如数学题、编程题)转化成多轮对话形式就行。

小结

如果你只想记住一件事,那就是:让模型"会听话"是可以训练的,而且这个能力可以泛化到各种领域

论文地址:arXiv:2602.16066

代码实现:github.com/yuanjiayiy/rl2f


写这篇文章的时候我还在想:如果以后所有模型都学会了"听话",那些"提示词工程"的技巧会不会就没用了?毕竟,模型要是真能听懂人话,我还费那劲想什么"思维链"、"角色扮演"干什么...

算了,想太多,先把这篇发了再说。