上周看到 DeepMind 出了篇新论文,标题挺学术——"Improving Interactive In-Context Learning from Natural Language Feedback"。但看完之后我直呼好家伙,这玩意儿可能比我想象的更有意思。
简单说,它解决了一个我们都遇到过的问题:AI 明明懂,但就是不听你说话。
一个让人抓狂的场景
你是不是也遇到过这种对话:
你:这个问题答案不对,你考虑一下 X 的情况。
AI:好的,我重新思考一下...(输出一模一样的答案)
你:你再仔细看看 X。
AI:嗯,我理解了...(还是同样的答案)
你:......
这种时候真的很想砸电脑。不是模型不懂——它可能完全有能力答对——但它就是不愿意改。就像一个死要面子的同事,你指出了问题,它嘴上说"收到",然后原封不动交上来。
DeepMind 的研究发现,这其实是当前大模型的一个系统性缺陷。它们训练的时候,只学过"看数据 → 输出答案",从来没学过"听人说话 → 改变想法"。
RL2F:让模型学会"听话"
论文提出了一个框架叫 RL2F(Reinforcement Learning with Language Feedback),名字有点绕,但思路很直白:
把"从反馈中学习"当成一种能力来训练。
他们的做法挺聪明。不是让模型直接背答案,而是设计了一个"师生对话"的训练场景:
- 给"老师"看答案(特权信息)
- 让"学生"试着答题
- 答错了,老师给提示(但不能直接说答案)
- 学生根据提示再试
- 如此往复,直到答对或者次数用完
关键是:老师和学生可以用同一个模型。只需要"信息不对称"——老师知道答案,学生不知道。不需要一个更强的大模型来当老师,这点让我挺意外的。
效果怎么样?
说实话,看完数据我有点被震惊到。
他们用 Gemini 2.5 Flash(中等大小的模型)做了实验,通过 RL2F 训练后,在数学题上的表现接近了 Gemini 2.5 Pro(那个大一号的旗舰模型)。
这什么概念?相当于一个中等生,学会了"听老师讲题"这个技能后,成绩追上了尖子生。
更离谱的是泛化能力。只用数学题训练,模型在编程、逻辑推理、甚至迷宫导航上的表现都变好了。平均提升 5-7%,某些任务甚至涨了十几个百分点。
作者管这叫"in-context plasticity"——上下文可塑性。我理解就是模型变得不那么"固执"了,愿意根据新信息调整自己的思路。
论文里一个很形象的对比
论文放了一段对话对比,我觉得特别能说明问题。
同一个偏微分方程的问题:
没训练过的模型:
- 第一次答错
- 老师给提示
- 还是同样的答案
- 老师再提示
- 继续重复...
- 最后干脆不思考了,直接输出那个错误答案
RL2F 训练后的模型:
- 第一次答错
- 老师给提示
- 开始分析提示,尝试修正思路
- 老师再提示
- 成功整合信息,得出正确答案
这就是"会学习"和"只会输出"的区别。
自我改进:一个意外的惊喜
论文最后还讲了一个更有意思的应用。
如果让模型学会预测"老师会怎么批评它",会发生什么?
答案是:模型可以自己给自己当老师了。
训练的时候,模型不仅学学生怎么改答案,还学老师怎么挑毛病。等到推理的时候,它就能自己批评自己、自己改进自己——成了一个"自学者"(autodidact)。
实验显示,这种自我对话的效果甚至比有一个真正的老师还好。作者推测是因为训练时的高质量反馈"教会"了模型怎么自我审视,避免了那种"自我感觉良好"的死循环。
这玩意儿有什么用?
说实话,我觉得这个研究的意义可能比表面上看起来更大。
首先是效率。如果用户说一句"你这个不对,考虑一下 X",模型真能听进去改了,那省下的时间难以估量。现在很多时候不是模型不懂,是它不愿改,你得变着法子"骗"它答对。
其次是成本。中等模型学会了"听话",能达到大模型的水平,这对推理成本的影响是巨大的。
最后是持续学习。虽然这篇论文还没解决"把对话中学到的知识固化下来"这个问题,但它指明了一条路:AI 不一定只能靠喂数据变强,也可以靠"学会怎么学习"。
一些想法
看完这篇论文,我想到一个问题:为什么我们之前没这么做过?
我觉得可能是因为,整个 AI 社区太习惯于"静态训练范式"了。收集数据、清洗数据、训练模型、评估模型——这套流程已经固化了我们的思维。"模型如何在对话中动态适应"这种问题,很容易被当成"后期优化"而不是"核心能力"。
DeepMind 这篇论文的价值在于,它把这个"后期优化"提出来,说:嘿,这也是一种可以训练的核心能力。
而且它的训练成本并不高——不需要特殊的数据,只需要把现有的可验证任务(比如数学题、编程题)转化成多轮对话形式就行。
小结
如果你只想记住一件事,那就是:让模型"会听话"是可以训练的,而且这个能力可以泛化到各种领域。
论文地址:arXiv:2602.16066
代码实现:github.com/yuanjiayiy/rl2f
写这篇文章的时候我还在想:如果以后所有模型都学会了"听话",那些"提示词工程"的技巧会不会就没用了?毕竟,模型要是真能听懂人话,我还费那劲想什么"思维链"、"角色扮演"干什么...
算了,想太多,先把这篇发了再说。