【LLM Tool Learning论文推荐】教大模型用外部搜索工具加强回答能力

79 阅读1分钟

背景

最近(2025年3月)出现了几篇Paper,都提到了如何教LLM学会在思考问题时,自己决定什么时候利用外部搜索引擎查资料,来增强其面对更复杂问题下的推理能力,无一例外都使用了RL,下面是每篇论文的分享链接。

【LLM Tool Learning】论文分享:R1-Searcher

【LLM Tool Learning】论文分享:Search-R1

【LLM Tool Learning】论文分享:ReSearch

总结

  • 其实看下来,三篇论文的思路以及结论都挺一致的,就是利用外部搜索引擎,通过Mask掉查询内容的Loss,去进行RL,这样子能明显提升模型的推理思考以及准确回答的能力。
  • GRPO的训练方法还是有明显效果的,尤其是在注重泛化能力的场景中,PPO/Reinforce++的训练方法在域内还是有一定的优势的,所以可以看具体落地场景选择相应方法。
  • 反思/自我纠错的能力,可能也不需要专门造相应的数据去训练模型,这种能力随着模型的不断思考迭代,会自然的引发。
  • 个人觉得第一篇的两阶段RL(Reward设计)以及评测方式(CEM & LLM As Juage)的思路更完善合理一些。