From r to Q∗ : Your Language Model is Secretly a Q-Function

摘要

基于人类反馈的强化学习（RLHF） 是最新一代生成式人工智能模型取得成功的关键因素。为了应对经典 RLHF 流程的复杂性，像直接偏好优化（DPO）这样的直接对齐算法作为一种替代方法应运而生。尽管 DPO 与标准 RLHF 设置解决的是同一目标，但两者之间存在不匹配的情况。标准 RLHF 在特定的逐标记马尔可夫决策过程（MDP）中部署强化学习，而 DPO 则被推导为一种将模型的整个回答视为单个臂的赌博机问题。在本研究中，我们纠正了这种差异。我们从理论上表明，可以在逐标记 MDP 中推导出 DPO，将其作为一种满足贝尔曼方程的通用逆 Q 学习算法。利用我们的理论结果，我们提供了三个具体的实证见解。首先，我们表明，由于其逐标记解释，DPO 能够进行某种类型的归因。其次，我们证明，在逐标记公式下，像蒙特卡洛树搜索（MCTS）这样的经典基于搜索的算法，近来已被应用于语言生成领域，等同于在 DPO 策略上的基于似然的搜索。实证上，我们表明简单的束搜索与基础 DPO 策略相比有显著改进。最后，我们展示了参考策略的选择会导致训练过程中隐含奖励的下降。我们以讨论我们工作的应用来结束，包括在多轮对话中的信息收集、推理、代理应用以及多模态系统的端到端训练。

1.引言

基于人类反馈的强化学习（RLHF）已经成为使大型语言模型（LLMs）与人类意图对齐的默认方法，因为它在从摘要（Stiennon 等，2022）到指令遵循（Ouyang 等，2022）等一系列应用中取得了成功。通过从人类标记的对比中学习奖励函数，RLHF 能够捕捉到在实际中难以描述的复杂目标。在 Ziegler 等（2020）取得成功之后，许多工作考虑了使用强化学习（RL）技术在不同领域从大型模型中训练和采样的新算法。特别是直接对齐方法，如直接偏好优化（DPO）（Rafailov 等，2023）在最近几个月引起了关注，因为它们的简单性（Zhao 等，2023a；Azar 等，2023）。与学习奖励函数然后使用 RL 不同，直接对齐方法利用奖励函数和策略在上下文 bandit 设置中的关系来同时优化两者。类似的想法已经被应用于视觉语言（Zhao 等，2023b）和图像生成模型（Lee 等，2023）。

虽然这些直接对齐方法声称与使用 PPO（Schulman 等，2017）等策略梯度算法的经典 RLHF 方法一样有效，但两者之间仍然存在根本性差异。例如，经典 RLHF 方法在 token 级别优化价值函数，并在终端状态提供稀疏奖励。DPO 则在上下文 bandit 设置中操作，将整个响应视为一个单独的 arm。尽管 token 是逐个生成的，并且在 RL 社区中普遍认为密集奖励是有益的，但目前尚不清楚直接对齐算法是否可以像典型 RLHF 流程中使用的底层 RL 算法那样应用于序列。

在这项工作中，我们通过在大型语言模型中常见的 token 级别 MDP 设置中推导 DPO 来弥这一合差异，使用通常形式的二元偏好反馈。我们表明 DPO 训练隐式地学习了一个 token 级别奖励函数，其中语言模型的 logits 定义了最优 Q 函数，即预期的总未来奖励。我们还证明 DPO 能够在 token MDP 中灵活地模拟任何可能的密集奖励函数。

在实践中，我们利用理论推导来证明三个我们相信对社区有用的实用见解。首先，我们表明尽管 DPO 模型是作为上下文 bandit 推导出来的，但其隐式奖励具有每个 token 的解释。其次，我们证明对 DPO 模型进行似然搜索类似于在解码期间搜索奖励函数，就像当代工作（Liu 等，2023b；Feng 等，2024）所做的那样。最后，我们确定初始策略和参考分布的选择对于确定训练期间隐式奖励轨迹的重要性。

2.相关工作

4.理论视角

在本节中，我们探讨了如何将直接偏好优化（DPO）理论化地纳入 token 级别的马尔可夫决策过程MDP，并研究这样做的影响。首先，我们在第 3.1 节的假设下，提供了 DPO 在 token 级别的推导。接着，我们表明，即使在 token MDP 中，DPO 也能够拟合多步 Bradley Terry 偏好模型方程（1）中的任何奖励函数。最终，这表明 DPO 潜在地可用于更多的序贯优化任务，比如多轮交互，甚至是多模态生成

4.1

从 r 到 Q*。未来回报与当前时间步之间的关系由 Bellman 方程捕捉，这些方程被任何有效的 Q 函数满足。我们在下面为在奖励 r 下具有 KL 散度惩罚的最优策略 π* 写出此方程：

Q^*(s_t, a_t) = \begin{cases} r(s_t, a_t) + \beta \log \pi_{\text{ref}}(a_t | s_t) + V^*(s_{t+1}), & \text{如果 } s_{t+1} \text{ 不是终止状态} \\ r(s_t, a_t) + \beta \log \pi_{\text{ref}}(a_t | s_t), & \text{如果 } s_{t+1} \text{ 是终止状态} \end{cases}

然后，我们可以重新排列最优 Q 函数的 Bellman 方程，以奖励的形式表达。这种关系风格最初由 Garg 等人（2022）在模仿学习中探索，并在 Hejna & Sadigh（2024）中用于基于偏好的强化学习。然而，这些工作需要使用折扣因子 $γ < 1，这在 RLHF 中通常不使用。在附录中，我们证明了以下引理，表明在标记 MDP 中这种关系确实是一一对应的。

引理 1 在温和的假设下，在标记 MDP 中奖励函数 $r(s_t, a_t)$ 和对应的最优 Q 函数 $Q^*(s_t, a_t)$ 之间存在双射。

这使我们得出一个相当有趣的结论——大型语言模型（LLM）总是标记 MDP 中某个奖励函数的最优软 Q 函数。考虑任何输出 logit lθ 和温度参数 β 的 LLM。如常见做法一样，我们取采样策略 π 为由温度参数 β 调制的标记 softmax。这正是方程（5）的情况，其中 Q* = lθ，因为值最优函数 V* 精确地是 β log Z(s_t)，用于归一化分布。对应的奖励函数可能不平滑或行为不佳。值得注意的是，logit 具有自由参数，因为 softmax 的原因。虽然这会导致相同的价值序列，但值可能不平滑。问题于是变成如何微调 LLM 使其成为与人类偏好一致的奖励函数 r 的最优 Q 函数。为此，我们将完成我们在标记 MDP 中推导 DPO 的工作。

DPO 学习我们对 $Q^*$ 的最佳估计。现在我们已经建立了 r 和 Q* 之间的双射，我们可以推导出一个标记级别的 DPO 版本，以根据方程（1）中的 Bradley-Terry 模型对语言模型隐式奖励与奖励的最佳估计进行对齐。为此，我们需要用 Q 函数表示回报的总和，然后用策略 $π^*$ 表示。我们通过逆向 Bellman 方程（方程 7）并将其代入轨迹 $τ = {s_1, a_1, ..., a_{T-1}, s_T}$ 的回报总和来完成第一步。

\sum_{t=0}^{T-1} r(s_t, a_t) = \sum_{t=0}^{T-1} \left( Q^*(s_t, a_t) - \beta \log \pi_{\text{ref}}(a_t | s_t) - V^*(s_{t+1}) \right) =

= Q^*(s_0, a_0) - \beta \log \pi_{\text{ref}}(a_0 | s_0) + \sum_{t=1}^{T-1} \left( Q^*(s_t, a_t) V -^*(s_t) \right) - \beta \log \pi_{\text{ref}}(a_t | s_t)

等式源于 V*(s_T) = 0 和重新排列求和以隔离 t = 0。由于 V* 完全由 Q* 和 β 决定（方程 6），我们已用 Q* 表示了序列的回报总和。接下来，我们将 Q* 替换为 π*。我们可以对数线性化方程（5）为 β log π*(a_t | s_t) = Q*(s_t, a_t) - V*(s_t)。这等同于说语言模型概率正是以 β 为温度的 lθ = Q* 的 softmax。从上述继续，用此替换我们得到：

= Q^*(s_0, a_0) - \beta \log \pi_{\text{ref}}(a_0 | s_0) + \sum_{t=1}^{T-1} \beta \log \frac{\pi^*(a_t | s_t)}{\pi_{\text{ref}}(a_t | s_t)} = V^*(s_0) + \sum_{t=0}^{T-1} \beta \log \frac{\pi^*(a_t | s_t)}{\pi_{\text{ref}}(a_t | s_t)}

最后一步来自添加和减去 V*(s_0) 并再次应用替换。现在，这种以最优策略表示的回报总和可以直接代入方程（1）中的偏好模型，其中 V*(s_0) 项将抵消，就像在原始 DPO 推导中 Z(x) 抵消一样，假设 τ^w 和 τ^l 从相同的初始状态开始。

4.2 Token 级别 DPO 可以参数化任何密集奖励函数。

在前一节中，我们通过 token 级别 MDP 中奖励函数和最优 Q 函数之间的双射关系推导出 DPO。DPO 的另一种观点是将其视为限制所学奖励函数，使其属于最优优势函数类 $A^*(s, a) = Q^*(s, a) - V^*(s))$ ，从而可以轻松地根据方程（5）获得最优策略。在这里，我们展示了这种限制并不会限制我们所能表示的奖励函数类别。我们首先扩展了 Rafailov 等（2023）中使用的等价性定义，将其推广到基于势函数的奖励塑形函数类别。

定义 1：如果存在一个势函数 $Φ(s)$ ，使得 $r'(s_t, a_t) = r(s_t, a_t) + Φ(s_{t+1}) - Φ(s_t)$ ，则称两个奖励函数 $r(s_t, a_t)$ 和 $r'(s_t, a_t)$ 是等价的。

在 Ng 等（1999）的开创性工作中，作者证明了根据定义 1 的两个等价奖励函数具有相同的最优策略。通过对方程（5）中的最优策略固定点进行对数线性化，并代入方程（7）中的 Bellman 方程（Nachum 等，2017；Watson 等，2023），得到我们：

β \log \frac{\pi^*(a_t|s_t)}{\pi_{\text{ref}}(a_t|s_t)} = r(s_t, a_t) + V^*(s_{t+1}) - V^*(s_t) \tag{10}

这正是最优优势函数，其中 $V^*$ 直接遵循势函数的形式。Watson 等（2023）首次使用这种推导得出一个“连贯”的奖励函数，后续研究通过注意到使用优势作为奖励可以保持最优策略（Knox 等，2024；Hejna 等，2024）得出了相同的结论。然而，与以往工作不同，我们证明了这种重新参数化还导致与 (r) 相同的确切偏好分布。

定理 1：给定一个参考策略 $\pi_{\text{ref}}$ 和参数 $\beta > 0$ ，所有与方程（1）中的 Plackett-Luce（和 Bradley-Terry）模型一致的奖励类别都可以用以下形式重新参数化：

r(s, a) = β \log π(a|s) - β \log π_{\text{ref}}(a|s) \tag{11}

在 token MDP 中，其中 $V^*(s_i) = 0$ 对所有终端状态都成立。

证明：上述推导证明了在重新参数化下最优策略的不变性。通过代入并遵循上一节中用于得出方程（8）的相同步骤，或遵循 Watson 等（2023）中的定义1，可以证明偏好模型也是不变的。

有趣的是，在实践中，势函数 (Φ(s_i)) 表示语言模型 logits 中的自由参数。沿所有 logits 的相等偏移将产生相同的策略，但产生不同的 Q 函数和相应的奖励。上述定理证明了所有这些都属于同一个等价类，并且诱导出相同的偏好集合。

5 实际见解

在本节中，我们讨论了我们理论分析的实证影响。首先，我们定性地展示了 $DPO$ 可以学习每个标记的信用分配。接下来，我们使用前一节的推导将引导解码和基于搜索的算法，例如 $MCTS$ ，与 $DPO$ 策略中的似然搜索联系起来，并实证验证这些结果。最后（首次），我们从数学上解释了 $DPO$ 训练期间观察到的似然减少现象，这在研究和行业社区中都有体现。

对于所有实证评估，我们使用 $Pythia\ 2.8B$ 模型 $Biderman\ et\ al.\ (2023)$ 和 $Reddit\ TL;DR$ 摘要数据集 $Steiennon\ et\ al.\ (2022)$ 。我们使用原始公共 $DPO$ 实现中的默认超参数，除非另有说明。

5.1 $DPO$ 学习信用分配吗？

在前一节中，我们概述了训练的 $DPO$ 策略如何表示一个优化偏好方程的奖励的最优 $Q$ 函数。在本节中，我们定性评估 $DPO$ 训练的模型是否能够从轨迹反馈中学习信用分配。我们从一个通用的 $Reddit$ 帖子集开始，用于 $TL;DR$ 测试数据集，我们在附录 $C$ 中提供了附加示例。在我们的代表性示例中，用户讨论了就业谈判情况。图 $1$ 左侧显示了两个答案。基础摘要是正确的。在右侧，我们通过引入更高级别的职位和相应的更高薪水来修改摘要。对于两个答案中的每个标记，我们计算 $DPO$ 奖励（等同于优势函数或“一致性”奖励（ $Watson\ et\ al.,\ 2023$ ）， $r(s, a) = \beta \log \pi_\theta(s|a) - \beta \log \pi_{\text{ref}}(s|a)$ ，其中 $\pi_\theta$ 如定理 $1$ 中所述（这里 $\pi_\theta$ 是我们的 $DPO$ 训练模型， $\pi_{\text{ref}}$ 是 $SFT$ 模型）。在图 $1$ 中，每个标记按此奖励的比例着色。我们看到模型成功识别了与错误陈述相对应的标记，同时仍然为其他标记保持可比的值，这表明它可以进行信用分配。此外，我们看到在第一个错误（“ $250K$ ”薪水）的上下文中，模型仍然为其余标记分配合理的值，并特别识别出第二个错误“管理职位”。这是能够进行“拼接” $Levine\ et\ al.\ (2020)$ 即从离线数据进行组合泛化的能力的有希望的迹象。如果是这种情况，我们的发现可能对 $LLMs$ 中强化学习和 $RLHF$ 的使用具有重要意义，特别是对于组合任务，例如代码和推理， $DPO$ 模型表现出了强大的性能。同时，在最近引入的RewardBench Lambert et al. (2024)中， $DPO$ 模型作为推理任务的分类器也展现出了出色的表现。我们认为这些是令人鼓舞的结果，值得进一步大规模研究以超越我们的定性观察。

5.2 将引导解码和搜索与基于似然的 $DPO$ 优化联系起来

最近，大型语言模型在推理阶段结合了搜索算法，如Mudgal et al. (2024); Feng et al. (2024); Huang et al. (2024); Liu et al. (2023a)所示，这些方法通过改进标准下一个token解码的响应质量。按照标准文献，这些方法依赖于一个（通常是稀疏的）奖励信号或模型 $r_\theta(s_t, a_t)$ ，他们利用这个信号训练一个独立的价值函数 $V_\theta(s_t)$ 。在推理时，他们在token MDP中部署图搜索算法以最大化奖励总和，如第3.1节所述。让我们考虑方程2中概述的搜索问题，并进行长度为 $K$ 的部分扩展：

\max_{a_0, \ldots, a_K} r(s_0, a_0) + \beta \log \pi_{\text{ref}}(s_0, a_0) + \ldots + r(s_t, a_t) + \beta \log \pi_{\text{ref}}(s_t, a_t) + V^*(s_{K+1}) \quad (12)

其中 $V^*$ 是最优对应价值函数。现在，如果我们直接将方程10中的奖励表示代入上述公式，并考虑望远镜求和，通过一些标准代数运算，我们发现上述目标等价于：

\max_{a_0, \ldots, a_K} -V^*(s_0) + \beta \log \pi^*(a_0|s_0) + \ldots + \beta \log \pi^*(a_K|s_K) \quad (13)

其中 $\pi^*$ 是对应的最优策略。现在，由于起始状态是固定的（由提示给定），我们发现基于RLHF目标的保守奖励函数的搜索算法和对应最优价值策略等价于对应最优策略的似然搜索。我们在图2中实证验证了这一属性，图中显示了在测试数据集中，与首选摘要相比，使用三种不同 $\beta$ 值训练的 $DPO$ 模型的胜率。我们看到5束搜索比基线策略（1束）提高了10-15%的胜率，这与Mudgal et al. (2024)报告的价值函数引导搜索改进相当。有趣的是，我们发现随着束数量的增加，性能下降。增加束数量还会产生答案长度过长，这是奖励过度优化的标志Gao et al. (2023); Park et al. (2024); Rafeilov et al. (2024)，这可以解释性能下降的原因。这些观察结果与将束搜索视为在学习奖励函数上的搜索的表述一致。

这些发现与最近提出的V-STaR算法的结果一致Hosseini et al. (2024)，该算法结合了STaR方法Zelikman et al. (2022)和经过 $DPO$ 训练的验证器。在推理时，STaR模型生成多个候选推理链（计划），这些链按 $DPO$ 验证器似然度排名。这可以看作是方程12中的基于似然的搜索的一种形式，然而，它不是直接在 $DPO$ 模型上进行搜索，而是使用STaR模型作为提议分布。我们假设这有助于防止奖励欺骗，这可能是深度搜索的一个潜在问题，如图2所示。

5.3 代理微调与强化学习之间的联系

几项最近的工作Mitchell et al. (2023); Liu et al. (2024a;b)提出了一种通过代理引导模型进行推理时间模型对齐的方法。这些方法从一个（未对齐的）基础模型 $\pi_{\text{base}}$ 、一个代理模型 $\pi_{\text{proxy}}$ 和一个目标分布参考模型 $\pi_{\text{ref}}$ 开始。基础模型在推理时间的重新对齐是通过对每个token的条件概率进行重新加权：

\pi(a|s_t) \propto \pi_{\text{base}}(a|s_t) \left( \frac{\pi_{\text{proxy}}(a|s_t)}{\pi_{\text{ref}}(a|s_t)} \right)^\beta \quad (14)

根据我们之前章节的考虑，这等价于：

\pi(a|s_t) \propto \pi_{\text{base}}(a|s_t) \exp(\beta (Q^*(s_t, a) - V^*(s_t))) \quad (15)

其中， $\beta (Q^*(s_t, a) - V^*(s_t))$ 是代理调优模型的最优隐式优势。我们的理论结果使我们能够将 Mitchell 等人（2023 年）和 Liu 等人（2024a; 2024b）的重新对齐方法与近期explicitly训练评论家模型以用于 token 级解码的工作联系起来[1]。

5.4 使用 DPO 时似然度应降低

对 DPO 的表面层次解读会让人误以为它会增加选定响应的似然度，同时降低被拒绝响应的似然度。然而，这种观点未能解释一个被观察到的现象，即选定响应的似然度实际上会随时间降低 [1]。这一现象在图 3 的左侧部分有所展示，我们表明，当在 DPO 之前进行监督式微调（SFT）时，选定响应和被拒绝响应的隐式奖励都会下降，尽管两者之间的差距会增大。然而，考虑到最大熵强化学习（MaxEnt RL）框架，这一现象是可以预期的。

让我们来考虑在训练期间经常测量的参考模型下策略的期望对数比（或隐式奖励）。通过代数运算可以得出以下关系：

\mathbb{E}_{\mathbf{a} \sim \pi_{\text{ref}}(\cdot | \mathbf{s})}\left[\beta \log \frac{\pi(\mathbf{a} | \mathbf{s})}{\pi_{\text{ref}}(\mathbf{a} | \mathbf{s})}\right] = -\beta \operatorname{D}_{\mathrm{KL}}\left(\pi_{\text{ref}}(\cdot | \mathbf{s}) \| \pi(\cdot | \mathbf{s})\right)

在训练开始时，当 $\pi = \pi_{\text{ref}}$ ，隐式奖励显然为零。然而，在训练结束时，假设 $\pi_{\text{ref}} \neq \pi^*$ ，则 KL 散度必然为正值，这表明隐式奖励的期望值必须降低才能收敛。这意味着，从 SFT 模型开始时，平均隐式奖励应该下降。事实上，在图 3 的左侧，我们展示了当不先进行 SFT 时，平均隐式奖励几乎没有什么明显的变化趋势，而选定响应的隐式奖励仍保持在零以上。实际上，这一趋势也适用于一般马尔可夫决策过程（MDP）中的 CPL [2]，如果未使用 SFT，隐式奖励实际上会增加。

有人可能意识到，前面的分析并没有必然要求选定响应的隐式奖励必须下降，而只是要求平均隐式奖励必须下降。然而，在实践中，通常的做法（也是推荐的做法 [3]）是仅对选定响应进行 SFT 以形成 $\pi_{\text{ref}}$ 。在本节中，我们将这种参考策略选择称为 $\pi_{\text{ref}}^w$ 。将 $\pi_{\text{ref}}^w$ 代入方程（16），我们可以看到，当对正面回答进行 SFT 时，选定响应的隐式奖励必须下降，因为在收敛时：

\mathbb{E}_{\pi_{\text{ref}}^w}\left[\beta \log \pi^* - \beta \log \pi_{\text{ref}}^w\right] = -\beta \operatorname{D}_{\mathrm{KL}}\left(\pi_{\text{ref}}^w \| \pi^*\right)

基于此推导以及 $\pi_{\text{ref}}^w$ 的选择，在 DPO 训练过程中，选定响应的似然度降低应该//TODO

6 讨论

在这项工作中，我们将 DPO 优化算法表述为学习一个由大型语言模型（LLM）表示的最优 Q 函数。这一表述以及我们的研究结果为 DPO 训练现象提供了理论依据，而这些现象是原始的 bandit 表述无法解释的。我们进一步通过在 DPO 下进行似然搜索，将一系列新的 LLM 搜索结果搜索算法联系起来并统一起来，并通过一个简单的 1 行代码更改，使用束搜索展示了相当的经验收益。最重要的是，我们展示了 DPO 能够直接从反馈数据中学习信用分配的早期定性迹象。尽管需要更大规模的经验探索，但我们认为这是一个令人鼓舞的早期迹象。我们的研究结果表明有许多有前景的未来研究方向值得探索：

从结果反馈中学习中间推理：近期的研究在这一领域取得了有希望的成果[11] [12]。

多轮对话：教导语言模型成为互动对话者一直是个难题，因为 RLHF 被优化为单轮 bandit 表述。此外，诸如 PPO 等经典方法在这种情况下并不适用。Andukuri 等人（2024 年）的近期研究成功地使用 STaR 在这一领域取得了进展，将 DPO 扩展到多轮对话树是一个有前景的方向[13]。

代理型 LLM：像 WebGPT（Nakano 等人，2022 年）这样的 LLM 代理能够采取自主行动，例如在提供答案之前浏览网页和收集信息。然后用户根据最终输出提供反馈。我们的推导表明，DPO 训练（基于完整的模型轨迹）可以学习最优的探索行为。Song 等人（2024 年）和 Xi 等人（2024 年）的近期研究表明了这一方向的潜力[14] [15]。

生成式 AI 系统的端到端训练：现代图像生成系统（如 Dalle 3[16]）使用 LLM 产生高质量的条件，然后调用扩散生成模型。此外，近期的长视频生成模型[17] [18]将基于变换器的自回归生成与基于扩散的解码器相结合。此类系统可能可以通过 DPO 的混合版本实现端到端优化。我们在附录中详细阐述了这些观点。

我们相信这些是有前景的未来研究方向。