ReSearch:通过强化学习让大模型学会在推理中搜索

135 阅读3分钟

摘要

当前大语言模型(LLMs)在多跳推理任务中展现出卓越表现,但如何将外部搜索与推理过程深度融合,仍是一大挑战。本文提出ReSearch框架,通过强化学习训练模型从零开始学会何时与如何进行搜索,并在推理链中动态使用搜索结果进行进一步推理。

ReSearch 采用无监督强化学习策略(GRPO),不依赖任何标注的推理数据,构建包含 <think><search><result> 等结构化标签的思维链。实验证明,该框架在多个多跳问答基准上相较 SOTA 方法取得显著提升,且具备良好的泛化性与自发反思能力。

image.png

1 引言

现有多跳问答任务需要模型多轮交替地进行思维与信息检索,传统的提示词工程或基于规则的 RAG 方法往往不具备可扩展性,也无法在训练中自动学习搜索策略。为此,本文提出 ReSearch,一种融合推理与搜索的强化学习框架:

  • 将搜索视为推理链中的自然组成部分;
  • 强调 “何时搜索、如何搜索” 由模型自我决策;
  • 训练中不使用任何中间推理标注,仅依赖最终答案进行奖励反馈。

该方法在多个任务中展现出优秀的跨任务迁移能力及复杂问题分解能力。

2 方法

2.1 搜索式强化学习

ReSearch 通过强化学习训练模型学会生成包含搜索步骤的完整推理路径。策略优化方法GRPO(Group Relative Policy Optimization)用于对比当前策略与旧策略在一组 rollout 上的表现,无需训练额外 critic 模型。推理策略优化目标如下:

J(θ)=Ex,{yi}[1Gi=1Gmin(πθ(yi)πθold(yi)Ai,clip())βDKL(πθπθref)]J(\theta) = \mathbb{E}_{x, \{y_i\}} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( \frac{\pi_\theta(y_i)}{\pi_{\theta_\text{old}}(y_i)} A_i, \text{clip}(\cdot) \right) - \beta D_{\text{KL}}(\pi_\theta \| \pi_{\theta_\text{ref}}) \right]

其中 AiA_i 为组内归一化优势值。

image.png

图2(a)给出了GRPO 优化机制流程图 ,(b)则展示了包含搜索过程的推理链示意图。

  • 搜索过程集成:模型生成 <search>...</search> 后由外部检索环境处理,结果写入 <result>...</result> 标签后反馈给模型继续推理。
  • 检索结果屏蔽:训练损失计算时仅考虑模型生成的 <think><search> 部分,屏蔽 <result> 内容,避免模型过度模仿检索内容。

2.2 模板设计

为了引导模型生成结构化的搜索推理链,作者设计了两种提示模板:

  • Base 模型模板:用于预训练模型,包含用户问题与结构化标签说明。
  • Instruct 模型模板:作为系统提示,结合对话接口使用。

image.png

2.3 奖励建模

训练仅使用最终答案的正确性与格式规范性来构建奖励信号:

  • 答案准确性:基于答案与标准答案的 F1 分数;
  • 格式准确性:确保生成中包含 \boxed{}、标签结构正确。

最终奖励函数:

r={F1(apred,agt),if F1>00.1,if F1 = 0 and format is correct0,otherwiser = \begin{cases} \text{F1}(a_{\text{pred}}, a_{\text{gt}}), & \text{if } \text{F1} > 0 \\ 0.1, & \text{if F1 = 0 and format is correct} \\ 0, & \text{otherwise} \end{cases}

3 实验

3.1 实验设置

  • 训练数据集:MuSiQue(19k样本,仅使用训练集);
  • 评估基准:HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle;
  • 模型规模:Qwen2.5-7B / 32B 与其 Instruct 版本;
  • 检索环境:FlashRAG + Wikipedia(2018.12)+ E5-base-v2 检索器;
  • 对比方法:无 RAG、Naive RAG、Iter-RetGen、IRCoT

3.2 主结果

表2展示了各模型在 4 个基准测试集上的 EM 与 LLM-as-a-Judge 得分对比,ReSearch 在所有数据集上均显著超越各类基线。

image.png

3.3 深度分析

图3和图4分别展示了训练过程中响应长度与搜索次数变化和训练与验证奖励曲线变化,随着训练的进行可以看到:

  • 响应长度逐步增长:表明模型逐步学会更完整地推理;
  • 搜索次数持续增加:多跳场景中学会反复检索;
  • 奖励稳定增长:指令微调模型初始表现更好,训练后效果更优;

image.png

4 总结

ReSearch 是一种无监督、结构化、可泛化的 LLM 强化学习框架:1)引入结构化搜索标签,构建“搜索-思维”交互链;2)使用 GRPO 强化学习优化策略,不依赖中间标注;3)模型在训练中自发学会反思与自我修正;4)可在多个任务中泛化推理与检索能力。本研究展示了强化学习在构建工具增强型 LLM 系统中的巨大潜力,为未来通用智能代理的构建提供了有力范式。