Direct Preference Optimization: Your Language Model is Secretly a Reward Model

摘要

虽然大规模无监督语言模型（LMs）能够学习广泛的世界知识和一些推理技能，但由于其训练过程完全无监督，因此很难精确控制它们的行为。目前，为了实现对这些模型行为的控制，现有的方法是收集人类对模型生成内容相对质量的标签，并通过从人类反馈中进行强化学习（RLHF）来微调无监督LM，使其与这些偏好对齐。然而，RLHF是一个复杂且常常不稳定的程序，首先需要拟合一个反映人类偏好的奖励模型，然后利用强化学习对大型无监督LM进行微调，以最大化这个估计的奖励，同时避免与原始模型偏离太远。在本文中，我们引入了一种新的RLHF奖励模型参数化方法，该方法能够以闭式形式提取相应的最优策略，使我们能够仅使用简单的分类损失来解决标准的RLHF问题。我们称这种算法为直接偏好优化（DPO），它稳定、高效且计算量小，消除了在微调过程中从LM采样或进行大量超参数调整的需要。我们的实验表明，DPO能够像现有方法一样好地或更好地微调LM以符合人类偏好。值得注意的是，使用DPO进行微调在控制生成内容的情感倾向方面超过了基于PPO的RLHF，并且在摘要和单轮对话中匹配或提高了响应质量，同时实现和训练过程要简单得多。

1.引言

大型无监督语言模型（LMs）在非常大的数据集上进行训练，获得了令人惊讶的能力[11, 7, 42, 8]。然而，这些模型是在由具有各种目标、优先事项和技能集的人类生成的数据上进行训练的。其中一些目标和技能集可能并不值得模仿；例如，虽然我们希望我们的AI编程助手能够理解常见的编程错误以便纠正它们，但当生成代码时，我们希望我们的模型倾向于其训练数据中存在的（可能较为罕见的）高质量编程能力。同样地，我们可能希望我们的语言模型了解一种被50%的人所相信的常见误解，但我们绝对不希望该模型在50%关于此误解的查询中声称它是真实的！换句话说，从模型广泛的知识和能力中选择其期望的响应和行为对于构建安全、高效且可控的AI系统至关重要[28]。虽然现有方法通常使用强化学习（RL）来引导LMs以符合人类偏好，我们将展示现有方法所使用的基于强化学习（RL）的目标可以通过一个简单的二元交叉熵目标精确优化，从而极大地简化偏好学习流程。

在高层次上，现有方法通过策划的人类偏好集合将期望的行为灌输给语言模型，这些偏好代表了人类认为安全且有帮助的行为类型。这一偏好学习阶段发生在初始的大规模无监督预训练阶段之后，预训练阶段是在一个大型文本数据集上进行的。尽管对高质量响应的人类演示进行监督微调是最直接的偏好学习方法，但最成功的偏好学习方法类别是从人类（或人工智能）反馈中进行强化学习（RLHF/RLAIF；[12, 2]）。RLHF方法会拟合一个奖励模型以匹配人类偏好的数据集，然后使用强化学习优化语言模型策略，使其生成被赋予高奖励的响应，同时不过度偏离原始模型。尽管RLHF能够产生具有令人印象深刻的对话和编程能力的模型，但与监督学习相比，RLHF流程要复杂得多，涉及训练多个语言模型，并在训练循环中从语言模型策略中采样，从而产生巨大的计算成本。

在本文中，我们展示了如何直接优化语言模型以符合人类偏好，而无需明确进行奖励建模或强化学习。我们提出了直接偏好优化（DPO），这是一种算法，它隐式地优化了现有RLHF算法（具有KL散度约束的奖励最大化）相同的优化目标，但实现简单且易于训练。直观上，DPO更新增加了偏好响应相对于非偏好响应的相对对数概率，但它包含了一个动态的、每个样本的重要性权重，以防止我们发现的简单概率比目标所导致的模型退化。与现有算法一样，DPO依赖于理论偏好模型（例如Bradley-Terry模型；[5]），该模型衡量给定奖励函数与经验偏好数据对齐的程度。然而，尽管现有方法使用偏好模型定义偏好损失以训练奖励模型，然后训练一个优化所学奖励模型的策略，但DPO通过变量变换直接将偏好损失定义为策略的函数。因此，给定一个关于模型响应的人类偏好的数据集，DPO可以使用简单的二元交叉熵目标来优化策略，产生一个与偏好数据拟合的隐式奖励函数的最优策略。

我们的主要贡献是直接偏好优化（DPO），这是一种简单的无强化学习算法，用于从偏好中训练语言模型。我们的实验表明，在情感调节、摘要和对话等任务中，DPO至少与现有方法（包括基于PPO的RLHF）一样有效，能够从偏好中学习，使用参数多达60亿的语言模型。

2.相关工作

随着规模的增加，自监督语言模型能够零样本学习完成一些任务，或者通过少量样本提示来学习[33]或[6, 27, 10]。然而，它们在下游任务上的表现和与用户意图的对齐可以通过在指令和人工编写的完成数据集上进行微调得到显著改善[25, 88, 13, 41]。这种“指令微调”过程使大型语言模型（LLMs）能够泛化到指令微调集之外的指令，并通常提高其可用性[13]。尽管指令微调取得了成功，但相对于人类对响应质量的判断，通常更容易收集专家演示，因此后续工作使用人类偏好数据集对LLMs进行微调，以提高翻译[20]、摘要[40, 51]、故事讲述[51]和指令遵循[28, 34]的能力。这些方法首先优化神经网络奖励函数，以与偏好数据集兼容，使用如Bradley-Terry模型[5]，然后微调语言模型以最大化给定奖励，使用强化学习算法，通常是REINFORCE[47]、近端策略优化（PPO）[39]或其变体[34]。与之密切相关的一条研究线利用经过指令微调的LLMs，通过人类反馈生成额外的合成偏好数据，用于目标属性如安全性或无害性[2]，仅使用LLMs注释形式的文本提示作为弱监督。这些方法代表了两种工作方向的融合：一种是训练语言模型以通过强化学习实现各种目标[35, 29, 48]，另一种是从人类偏好中学习的工作[12, 21]。尽管使用相对人类偏好的吸引力，微调大型语言模型以进行强化学习仍然是一个主要的实际挑战；这项工作提供了一种理论上合理的优化相对偏好的方法，而不使用强化学习。

在语言环境之外，学习偏好的学习策略已经在带和不带奖励学习的设置中进行了研究，提出了几种方法。使用偏好或动作排名而不是奖励的上下文带学习，称为上下文决斗带（CDB）[50, 14]。在绝对奖励缺失的情况下，CDB的理论分析替代了最优策略的概念，即冯·诺依曼赢家，一个预期胜率至少为50%的策略[14]。然而，在CDB设置中，偏好是在线给出的，而在从人类偏好中学习时，我们通常从固定的离线偏好标注动作对批次中学习[49]。同样，基于偏好的强化学习（PbRL）从未知“评分”函数生成的二元偏好中学习，而不是奖励[5, 37]。各种PbRL算法存在，包括可以重用现成策略偏好数据的方法，但通常首先明确估计潜在评分函数（即奖励模型），然后优化[16, 9, 12, 36, 21]。我们提出了一种单一阶段的策略学习方法，直接优化满足偏好的策略。

3.前言

我们回顾了Ziegler等人（以及后来的[40, 1, 28]）中的RLHF（基于人类反馈的强化学习）流程。它通常包括三个阶段：1）监督微调（SFT）；2）偏好采样和奖励学习；3）强化学习优化。 SFT：RLHF通常首先使用下游任务（对话、摘要等）的高质量数据对预训练的语言模型（LM）进行监督学习微调，以获得模型 $π^{SFT}$ 。

奖励建模阶段：在第二阶段，SFT模型会根据提示 x 生成一对答案 $(y_1, y_2) \sim π^{SFT}(y | x)$ 。然后由人类标注者对这些答案进行评估，表达他们对其中一个答案的偏好，记为 $y_w ≻ y_l | x$ ，其中 $y_w$ 和 $y_l$ 分别表示在 $(y_1, y_2)$ 中更受偏好和不受欢迎的答案。这些偏好被假设是由某个潜在的奖励模型 $r^*(y, x)$ 生成的，而我们并没有直接访问这个模型。有多种方法可以用于建模偏好，其中Bradley-Terry (BT) 模型是一个流行的选择（尽管更一般的Plackett-Luce排名模型也与我们的框架兼容，如果我们能访问多个排名答案）。BT模型假设人类偏好分布 $p^*$ 可以表示为：

p^*(y_1 ≻ y_2 | x) = \frac{\exp(r^*(x, y_1))}{\exp(r^*(x, y_1)) + \exp(r^*(x, y_2))}.

假设我们可以访问一个静态的比较数据集 $D = \{x^{(i)}, y_w^{(i)}, y_l^{(i)}\}_{i=1}^N$ ，从中采样自 $p^*$ ，我们可以参数化一个奖励模型 $r_\phi(x, y)$ 并通过最大似然估计其参数。将问题框架为一个二元分类问题，我们有负对数似然损失：

L_R(r_\phi, D) = -E_{(x, y_w, y_l) \sim D}[log σ(r_\phi(x, y_w) - r_\phi(x, y_l))]

其中 $\sigma$ 是逻辑函数。在语言模型的背景下，网络 $r_\phi(x, y)$ 通常初始化为SFT模型 $π^{SFT}(y | x)$ ，并在最后的Transformer层之上添加一个线性层来产生奖励值的单一标量预测。为了确保奖励函数具有较低的方差，先验工作通过归一化奖励来实现，使得对于所有的 $x$ ， $E_{x, y \sim D}[r_\phi(x, y)] = 0$ 。

RL微调阶段：在RL阶段，学习到的奖励函数被用来为语言模型提供反馈。根据之前的工作，优化公式如下：

\max_{π_θ} E_{x \sim D, y \sim π_θ(y | x)}[r_\phi(x, y)] - βD_{KL}[π_θ(y | x) || π_{ref}(y | x)]

其中 $\beta$ 是一个控制从基础参考策略 $\pi_{\text{ref}}$ ，即初始SFT模型 $\pi^{\text{SFT}}$ 偏离的参数。在实践中，语言模型策略 $\pi_\theta$ 也被初始化为 $\pi^{\text{SFT}}$ 。增加的约束很重要，因为它防止模型偏离奖励模型准确的分布太远，同时保持生成多样性并防止模式崩溃到单一高奖励答案。由于语言生成的离散性，该目标不可微分，通常通过强化学习进行优化。标准方法[51][40][1][28]是构建奖励函数 $r(x, y) = r_\phi(x, y) - \beta (\log \pi_\theta(y \mid x) - \log \pi_{\text{ref}}(y \mid x))$ ，并使用PPO[39]进行最大化。

4.Direct Preference Optimization

受在大规模问题上应用强化学习算法（如微调语言模型）的挑战的启发，我们的目标是推导出一种使用偏好直接进行策略优化的替代方法。与先学习奖励然后通过强化学习进行优化的先前RLHF方法不同，我们的方法利用了一种特定的奖励模型参数化，使得可以在没有强化学习训练循环的情况下提取其最优策略的封闭形式。正如我们将在下文中详细描述的那样，我们的关键见解是利用奖励函数到最优策略的解析映射，这使我们能够将奖励函数上的损失函数转换为策略上的损失函数。这种变量变换方法避免了拟合显式的独立奖励模型，同时仍然在现有的人类偏好模型下进行优化，例如Bradley-Terry模型。本质上，策略网络代表了语言模型和（隐式）奖励模型。

推导DPO目标。我们从相同的强化学习目标开始，即在一般奖励函数 $r$ 下，如公式(3)所示。根据之前的工作[31][30][19][15]，很容易证明公式(3)中KL约束奖励最大化目标的最优解形式为：

\pi_r(y \mid x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y \mid x) \exp \left( \frac{1}{\beta} r(x, y) \right),

其中

Z(x) = \sum_y \pi_{\text{ref}}(y \mid x) \exp \left( \frac{1}{\beta} r(x, y) \right)

是分区函数。参见附录A.1以获得完整推导。即使我们使用真实奖励函数 $r^*$ 的分区函数 $Z(x)$ 的HW估计 $r_{\phi}$ ，估计分区函数 $Z(x)$ [19][15]仍然很昂贵，这使得这种表示在实践中难以利用。然而，我们可以重新排列公式(4)以用其对应的最优策略 $\pi_r$ 、参考策略 $\pi_{\text{ref}}$ 和未知分区函数 $Z(\cdot)$ 来表示奖励函数。具体来说，我们首先对公式(4)两边取对数，然后通过一些代数运算得到：

r(x, y) = \beta \log \frac{\pi_r(y \mid x)}{\pi_{\text{ref}}(y \mid x)} + \beta \log Z(x).

我们可以将这种重新参数化应用于真实奖励 $r^*$ 和相应的最优模型 $\pi^*$ 。幸运的是，Bradley-Terry模型仅依赖于两个完成之间的奖励差异，即

p^*(y_1 \succ y_2 \mid x) = \sigma(r^*(x, y_1) - r^*(x, y_2)).

将这种重新参数化代入公式(5)以获得 $r^*(x, y)$ ，分区函数被抵消，我们可以用仅最优策略 $\pi^*$ 和参考策略 $\pi_{\text{ref}}$ 来表示人类偏好概率。因此，Bradley-Terry模型下的最优RLHF策略 $\pi^*$ 满足偏好模型：

p^*(y_1 \succ y_2 \mid x) = \frac{1}{1 + \exp \left( \beta \log \frac{\pi^*(y_2 \mid x)}{\pi_{\text{ref}}(y_2 \mid x)} - \beta \log \frac{\pi^*(y_1 \mid x)}{\pi_{\text{ref}}(y_1 \mid x)} \right)}.

推导在附录A.2中。虽然公式(6)使用了Bradley-Terry模型，但我们也可以在更一般的Plackett-Luce模型[32][20]下推导出类似的表达式，如附录A.3所示。

现在我们有了人类偏好数据在最优策略而非奖励模型方面的概率，我们可以为参数化策略 $\pi_{\theta}$ 制定一个最大似然目标。类似于奖励建模方法[2]，我们的目标变为：

\mathcal{L}_{\text{DPO}}(\pi_{\theta}; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_{\theta}(y_w \mid x)}{\pi_{\text{ref}}(y_w \mid x)} - \beta \log \frac{\pi_{\theta}(y_l \mid x)}{\pi_{\text{ref}}(y_l \mid x)} \right) \right].

这样，我们通过使用另一种参数化来拟合隐式奖励，其最优策略简单地是 $\pi_{\theta}$ 。此外，由于我们的程序是拟合重新参数化的Bradley-Terry模型，模型在偏好数据分布的某些合适假设下，它享有某些理论性质，例如一致性[4]。在第5节中，我们进一步讨论了DPO与其他工作的关联理论性质。

DPO更新做了什么？为了从机制上理解DPO，分析损失函数 $\mathcal{L}_{\text{DPO}}$ 的梯度是有用的。相对于参数 $\theta$ 的梯度可以写成如下形式：

\nabla_{\theta} \mathcal{L}_{\text{DPO}}(\pi_{\theta}; \pi_{\text{ref}}) = -\beta \mathbb{E}_{(x, y_u, y_l) \sim \mathcal{D}} \left[ \sigma(\hat{r}_{\theta}(x, y_l) - \hat{r}_{\theta}(x, y_u)) \left[ \nabla_{\theta} \log \pi(y_u \mid x) - \nabla_{\theta} \log \pi(y_l \mid x) \right] \right],

其中 $\hat{r}_{\theta}(x, y) = \beta \log \frac{\pi_{\theta}(y \mid x)}{\pi_{\text{ref}}(y \mid x)}$ 是由语言模型 $\pi_{\theta}$ 和参考模型 $\pi_{\text{ref}}$ 隐式定义的奖励（在第5节中有更多介绍）。直观上，损失函数 $\mathcal{L}_{\text{DPO}}$ 的梯度增加了优选完成 $y_u$ 的可能性，并减少了不受欢迎完成 $y_l$ 的可能性。重要的是，这些例子的权重由隐式奖励模型 $\hat{r}_{\theta}$ 对不受欢迎完成的排序有多错误来决定，由 $\beta$ 缩放，即隐式奖励模型对完成排序的不正确程度，考虑到KL约束的强度。我们的实验表明了这种加权的重要性，因为这种方法的简单版本在没有加权系数的情况下可能导致语言模型退化（见附录表3）。

DPO概述。一般DPO流程如下：1）对于每个提示 $x$ ，采样完成 $y_1, y_2 \sim \pi_{\text{ref}}(\cdot \mid x)$ ，用人类偏好标记以构建偏好的离线数据集 $\mathcal{D} = \{x^{(i)}, y_u^{(i)}, y_l^{(i)}\}_{i=1}^N$ ，以及2）优化语言模型 $\pi_{\theta}$ 以最小化给定 $\pi_{\text{ref}}$ 和 $\mathcal{D}$ 以及期望 $\beta$ 的 $\mathcal{L}_{\text{DPO}}$ 。在实践中，我们希望重用公开可用的偏好数据集，而不是生成样本和收集人类偏好。由于偏好数据集是用 $\pi^{\text{SFT}}$ 采样的，我们初始化 $\pi_{\text{ref}} = \pi^{\text{SFT}}$ ，只要可用。然而，当 $\pi^{\text{SFT}}$ 不可用时，我们通过最大化优选完成 $(x, y_u)$ 的似然来初始化 $\pi_{\text{ref}}$ ，即，

\pi_{\text{ref}} = \arg \max_{\pi} \mathbb{E}_{x, y_u \sim \mathcal{D}} [\log \pi(y_u \mid x)].

这个过程有助于缓解分布偏移，即真实的参考分布不可用，而DPO使用的 $\pi_{\text{ref}}$ 。更多关于实现和超参数的详细信息可以在附录B中找到。

5 DPO的理论分析

在本节中，我们进一步解释DPO方法，提供理论支持，并将DPO的优势与用于RLHF的演员评论家算法（如PPO）相关联。

5.1 你的语言模型实际上是一个奖励模型

DPO能够绕过拟合显式奖励并使用单一最大似然目标来执行RL以学习策略。注意，优化目标 $\text{Eq. 5}$ 等价于具有奖励参数化的Bradley-Terry模型 $r^*(x, y) = \beta \log \frac{\pi_\theta^*(y|x)}{\pi_{\text{ref}}(y|x)}$ ，我们优化我们的参数模型 $\pi_\theta$ ，等同于在变量变化下对公式(2)中的奖励模型优化。在本节中，我们将构建这种重新参数化背后的理论，展示它不会限制学习到的奖励模型的类别，并允许精确恢复最优策略。我们首先通过定义奖励函数之间的等价关系开始。

定义 1. 我们说两个奖励函数 $r(x, y)$ 和 $r'(x, y)$ 是等价的，当且仅当 $r(x, y) - r'(x, y) = f(x)$ 对于某个函数 $f$ 。

很容易看出这确实是一个等价关系，它将奖励函数集划分为类别。我们可以陈述以下两个引理：

引理 1. 在Plackett-Luce模型下，特别是Bradley-Terry偏好框架中，来自同一类别的两个奖励函数诱导相同的偏好分布。

引理 2. 来自相同等价类别的两个奖励函数在约束RL问题下诱导相同的最优策略。

证明是直接的，我们将其推迟到附录A.3。第一个引理是与Plackett-Luce模型家族的欠规范问题相关的一个众所周知的问题。由于这种欠规范，我们通常需要对公式(4)中的MLE估计施加额外的正则化约束以获得保证。第二个引理表明，同一类别中的所有奖励函数产生相同的最优策略，因此对于我们的最终目标，我们只需要从最优类别中恢复任意奖励函数。我们在附录A.6中证明了以下定理。

定理 1. 在温和假设下，所有与Plackett-Luce（特别是Bradley-Terry）模型一致的奖励类别都可以用重新参数化的 $r(x, y) = \beta \log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)}$ 表示，其中 $\pi(y|x)$ 是某个模型 $\pi(y|x)$ ，给定参考模型 $\pi_{\text{ref}}(y|x)$

证明草图。 考虑任何奖励函数 $r(x, y)$ ，它诱导了一个相应的最优模型 $\pi_r(y|x)$ ，由公式(4)指定。我们将展示来自等价类的奖励函数可以用给定的重新参数化表示。我们定义投影 $f$ 为

f(r; \pi_{\text{ref}}, \beta)(x, y) = r(x, y) - \beta \log \sum_y \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r(x, y) \right)

该操作符 $f$ 仅通过分区函数 $\pi_r$ 的对数来归一化奖励函数。由于添加的归一化项仅是前缀 $x$ 的函数， $f(r; \pi_{\text{ref}}, \beta)(x, y)$ 是 $r(x, y)$ 的等价类中的奖励函数。最后，用公式(8)的RHS替换 $r$ （适用于我们的奖励函数），我们有 $f(r; \pi_{\text{ref}}, \beta)(x, y) = \beta \log \frac{\pi_r(y|x)}{\pi_{\text{ref}}(y|x)}$ 。也就是说，投影 $f$ 产生 $r$ 的等价类的成员，具有所需的形式，并且我们不会失去对奖励模型的任何一般性，因为我们从期望的重新参数化中获得。

我们可以将定理1视为精确指定DPO重新参数化选择的奖励函数，即满足：

\sum_y \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r(x, y) \right) = 1,

\Rightarrow \pi(y|x) = \pi_{\text{ref}}(y|x),

$\pi(y|x)$ 是一个有效分布（概率为正且总和为1）。然而，根据公式(8)，我们可以看到公式(9)是最优策略诱导的奖励函数的分区函数 $r(x, y)$ 。DPO算法的关键见解是，我们可以对欠规范的Plackett-Luce（特别是Bradley-Terry）偏好模型施加某些约束，例如我们保留代表性奖励模型的类别，但明确使公式(8)中的最优策略在所有提示 $x$ 上可分析地可追踪。

5.2 演员评论家算法的不稳定性

我们还可以使用我们的框架来诊断标准演员评论家算法用于RLHF（如PPO）的不稳定性。我们遵循RLHF管道，并专注于RL微调步骤中概述的部分。我们可以将控制与推理框架[22]联系起来，用于在第3节中概述的约束RL问题。我们假设参数化模型 $\pi_\theta(y|x)$ 并最小化 $\mathbb{D}_{KL} [\pi_\theta(y|x) \| \pi^*(y|x)]$ ，其中 $\pi^*(y|x)$ 是由奖励函数 $r_\phi(y, x)$ 诱导的最优策略。通过一些代数运算，这导致优化目标：

\max_{\theta} \mathbb{E}_{x \sim \mathcal{D}(y|x)} \left[ r_\phi(x, y) - \beta \log \sum_y \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r_\phi(x, y) \right) \right] - \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}

这是先前工作中使用DPO等价奖励优化的目标[51][60][28]，用于 $r_\phi$ 的奖励类别。通过这种方式，我们可以将归一化项解释为 $f(r_\phi, \pi_{\text{ref}}, \beta)$ 和参考策略 $\pi_{\text{ref}}$ 的软值函数。虽然这个术语不会影响最优解，但目标的策略梯度可能有很高的方差，使学习不稳定。我们可以适应使用学习值函数，但这也难以优化。或者，先前的工作使用人类完成的基线，基本上是归一化项的单个样本蒙特卡洛估计。相比之下，DPO重新参数化产生一个不需要任何这些技术的奖励函数。

6.实验

在本节中，我们实证评估了DPO在直接从偏好中训练策略的能力。首先，在一个受控的文本生成环境中，我们提出：DPO在最大化奖励和最小化与参考策略的KL散度之间的权衡效率如何，与常见的偏好学习算法如PPO相比？接下来，我们评估DPO在更大模型和更困难的RLHF任务上的表现，包括摘要和对话。我们发现，在几乎没有超参数调整的情况下，DPO往往表现得和强大的基线算法一样好，如带有PPO的RLHF，并且在学习奖励函数下返回N个采样轨迹中的最佳结果。在展示这些结果之前，我们描述了实验设置；更多细节见附录C。

任务:我们的实验探讨了三种不同的开放式文本生成任务。对于所有实验，算法从偏好数据集 $\mathcal{D} = \{x^{(i)}, y_w^{(i)}, y_j^{(i)}\}_{i=1}^N$ 中学习策略。在受控情感生成中， $x$ 是IMDB数据集[24]中电影评论的前缀，策略必须生成具有积极情感的 $y$ 。为了进行受控评估，我们使用预训练的情感分类器生成偏好对，其中 $p(\text{positive} \mid x, y_w) > p(\text{positive} \mid x, y_l)$ 。对于SFT，我们微调GPT-2-large直到在IMDB数据集的训练部分上的评论收敛（更多细节见附录C）。在摘要中， $x$ 是来自Reddit论坛帖子的文本；策略必须生成帖子主要点的摘要 $y$ 。遵循先前的工作，我们使用Reddit TL;DR摘要数据集[43]以及由Stiennon等人收集的人类偏好。我们使用SFT模型在人类编写的论坛帖子摘要上进行微调，采用TRLX[44]框架进行RLHF。人类偏好数据集由Stiennon等人从不同的、但同样训练的SFT模型中收集。最后，在单轮对话中， $x$ 是人类查询，可能从问题到天文学请求的任何事情；策略必须生成对用户查询 $y$ 的引人入胜且有帮助的响应。我们使用Anthropic Helpful和无害对话数据集[11]，包含170k个人类与自动化助手之间的对话。每个记录以大型（尽管未知）语言模型生成的一对响应结束，以及表示人类偏好响应的偏好标签。在这种情况下，没有预训练的SFT模型可用；因此，我们仅在首选完成上微调现成的语言模型以形成SFT模型。

评估:我们的实验使用两种不同的方法进行评估。为了分析每种算法在优化受控奖励最大化目标中的有效性，在受控情感生成设置中，我们通过其在参考策略中实现的奖励和KL散度的前沿来评估每种算法；这是可计算的，因为我们可以通过情感分类器访问真实奖励函数。然而，在现实世界中，真实奖励函数是未知的；因此，我们评估算法在基线策略上的表现，使用GPT-4作为摘要质量和响应有用性的人类评估代理。对于摘要，我们使用测试集中的参考摘要作为基线；对于对话，我们使用首选响应作为基线。

6.1 DPO在优化RLHF目标上的表现如何？

在典型的RLHF算法中使用的KL约束奖励最大化目标平衡了对奖励的利用，同时限制策略偏离参考策略太远。因此，在比较算法时，我们必须同时考虑实现的奖励和KL差异；实现略高的奖励但KL值高得多并不一定是可取的。图2展示了不同算法在情感设置中的奖励-KL前沿。我们对每种算法执行多次训练运行，每次运行使用不同的超参数来控制策略保守性（目标 $KL \in \{3, 6, 9, 12\}$ 对于PPO， $\beta \in \{0.05, 0.1, 1, 5\}$ ， $\alpha \in \{0.05, 0.1, 0.5, 1\}$ 对于不太可能的情况，随机种子用于首选FT）。这个扫描总共包括22次运行。在每次100次训练步骤直到收敛后，我们在一组测试提示上评估每个策略，计算在真实奖励函数下的平均奖励以及与参考策略 $KL(\pi \parallel \pi_{\text{ref}})$ 的平均序列级KL。我们发现DPO产生了迄今为止最有效的前沿，在实现低KL的同时获得最高奖励。这个结果尤其显著，原因有多个。首先，DPO和PPO优化相同的目标，但DPO明显更有效；DPO的奖励/KL权衡严格优于PPO。其次，即使PPO可以访问真实奖励（PPO-GT），DPO也实现了比PPO更好的前沿。

6.2 DPO能否扩展到真实的偏好数据集？

接下来，我们评估DPO在摘要和单轮对话中的微调性能。对于摘要，自动评估指标如ROUGE可能与人类偏好的相关性较差[40]，先前的研究发现，使用PPO对人类偏好进行微调的大型语言模型（LMs）可以提供更有效的摘要。我们在TL;DR摘要数据集的测试集上对不同方法进行采样完成，并计算相对于测试集参考完成的平均胜率。所有方法的完成情况在图2（右）中显示，温度从0.0到1.0不等，胜率也显示在图中。DPO、PPO和首选FT都在相同的GPT-J SFT模型上进行微调。我们发现DPO在温度为0.0时的胜率约为61%，超过了PPO在最佳采样温度0.0时的57%的表现。DPO还实现了比N基线更高的最大胜率。我们注意到我们没有显著调整DPO的β超参数，因此这些结果可能低估了DPO的潜力。此外，我们发现DPO对采样温度的鲁棒性比PPO更强，其性能在高温下不会退化到基础GPT-J模型的水平。首选FT的性能并没有显著超过SFT模型。我们还在第6.4节中将DPO和PPO进行了头对头的比较，其中DPO在温度0.25时采样的完成情况在温度0时被偏好58%，超过了PPO采样的情况。

在单轮对话中，我们在Anthropic HH数据集[1]的测试集子集上评估了不同的方法，该数据集具有一步的人类助手交互。GPT-4评估使用测试集上的优选完成作为不同方法的胜率参考。由于此任务没有标准的SFT模型，我们从预训练的Pythia-2.8B开始，使用首选FT训练参考模型，以便所选完成在模型的分布内，然后使用DPO进行训练。我们还比较了128个首选FT完成的最佳情况（我们发现N基线在128个完成时达到平台期；见附录图4和Pythia-2.8B基础模型的2次提示版本，发现DPO在每种方法中表现最好或更好，针对每种方法的最佳表现温度。我们还评估了在Anthropic HH数据集上用PPO训练的RLHF模型[8]，从一个著名的来源[9]，但我们找不到一个提示或采样温度，其性能优于基础Pythia-2.8B模型。基于我们在TL;DR上的结果以及两种方法优化相同奖励函数的事实，我们将128个最佳情况视为PPO级性能的粗略代理。总体而言，DPO是唯一在Anthropic HH数据集上提高优选完成的计算效率的方法，并提供与计算要求较高的128个最佳情况相似或更好的性能。最后，图3显示DPO相对快速地收敛到其最佳性能。

6.3 泛化到新的输入分布

为了进一步比较PPO和DPO在分布变化下的性能，我们评估了PPO和DPO策略，这些策略来自我们的Reddit TL;DR摘要实验，在一个新的分布上，即CNN/DailyMail数据集[26]测试集上的新闻文章，使用TL;DR的最佳采样温度（0和0.25）。结果在表1中展示。我们计算了GPT-4在数据集中的真实摘要上的胜率，使用相同的GPT-4 (C) 提示，我们用于Reddit TL;DR，但将“论坛帖子”替换为“新闻文章”。对于这个新的分布，DPO继续以显著的优势超越PPO策略。这个实验提供了初步证据，表明DPO策略可以与PPO策略一样泛化良好，即使DPO不使用PPO使用的额外未标记Reddit TL;DR提示。

算法	温度 0	温度 0.25
DPO	0.36	0.31
PPO	0.26	0.23

表1：GPT-4在CNN/DailyMail输入文章上的真实摘要胜率。

6.4 通过人类判断验证GPT-4的判断

我们进行了一项人类研究来验证GPT-4判断的可靠性，使用了TL;DR摘要实验的结果和两种不同的GPT-4提示。GPT-4 (S)（简单）提示只是询问哪个摘要更好地总结了帖子中的重要信息。GPT-4 (C)（简洁）提示也询问哪个摘要更简洁；我们评估这个提示是因为我们发现GPT-4比人类更喜欢更长、更重复的摘要，而不是人类对GPT-4 (S) 提示的偏好。完整的提示见附录C.2。我们进行了三次比较，使用了最高（DPO，温度0.25）、最低（PPO，温度1.0）和一个中等表现（SFT，温度0.25）的方法，目的是覆盖样本质量的多样性；所有三种方法都与贪婪采样的PPO（其表现最好的温度）进行了比较。我们发现，对于两种提示，GPT-4倾向于与人类一样经常达成一致，表明GPT-4是合理的人类评估代理（由于人类评估者有限，我们只收集了DPO和PPO-1比较的多个人类判断）。总体而言，GPT-4 (C) 提示通常提供了比人类更有代表性的胜率；因此，我们使用这个提示作为第6.2节主要结果的基础。有关人类研究的更多详细信息，包括向评估者展示的网页界面和人类志愿者名单，见附录D.3。

	DPO	SFT	PPO-1
N 响应者	272	122	199
GPT-4 (S) 胜率 %	47	27	13
GPT-4 (C) 胜率 %	54	32	12
人类胜率 %	58	43	17
GPT-4 (S)-H 同意	70	77	86
GPT-4 (C)-H 同意	67	79	85
H-H 同意	65	-	87

表2：比较人类和GPT-4在TL;DR摘要样本上的胜率和逐判断一致性。人类与GPT-4的一致性与他们彼此之间的一致性一样多。每个实验比较了从所述方法生成的摘要与PPO在温度0下生成的摘要。

7.讨论

从偏好中学习是一种强大且可扩展的框架，用于训练具备能力且与人类偏好对齐的语言模型。我们引入了直接偏好优化（DPO），这是一种无需强化学习即可从偏好中训练语言模型的简单训练范式。DPO并没有将偏好学习问题强行纳入标准的强化学习（RL）设置中以使用现成的RL算法，而是识别出语言模型策略与奖励函数之间的一种映射关系，从而能够直接使用简单的交叉熵损失训练语言模型以满足人类偏好，无需强化学习且不损失通用性。几乎无需对超参数进行调整，DPO的表现就与现有的基于人类反馈的强化学习（RLHF）算法相当，甚至更好，包括基于近端策略优化（PPO）的算法；因此，DPO显著降低了从人类偏好中训练更多语言模型的门槛。

限制与未来工作我们的结果引发了未来工作需要回答的几个重要问题。与从显式奖励函数中学习相比，DPO策略在分布外的泛化能力如何？我们的初步结果表明，DPO策略的泛化能力与基于PPO的模型相似，但需要更全面的研究。例如，DPO策略的自标记训练是否能同样有效地利用未标记的提示？在另一个方面，奖励过度优化在直接偏好优化设置中是如何表现的，图3右侧的轻微性能下降是否是其一个实例？此外，尽管我们评估了多达60亿参数的模型，但将DPO扩展到比当前最先进的模型大几个数量级的模型是一个令人兴奋的未来研究方向。关于评估，我们发现由GPT-4计算的胜率会受到提示的影响；未来的研究可能会研究如何从自动化系统中引出高质量的判断。最后，DPO的应用范围远不止从人类偏好中训练语言模型，还包括在其他模态中训练生成模型等许多可能的应用。

附录

A 数学推导

A.1 推导KL约束奖励最大化目标的最优解

在本附录中，我们将推导公式(4)。类似于公式(3)，我们优化以下目标：

\max_{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi} [r(x, y)] - \beta \mathbb{D}_{KL} [\pi(y|x) \| \pi_{\text{ref}}(y|x)]

在任意奖励函数 $r(x, y)$ 、参考模型 $\pi_{\text{ref}}$ 和一般的非参数策略类下。我们现在有：

\begin{aligned} &\max_{\pi} \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi} [r(x, y)] - \beta \mathbb{D}_{KL} [\pi(y|x) \| \pi_{\text{ref}}(y|x)] \\ &= \max_{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y|x)} \left[ r(x, y) - \beta \log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)} \right] \\ &= \min_{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y|x)} \left[ \log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)} - \frac{1}{\beta} r(x, y) \right] \\ &= \min_{\pi} \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi(y|x)} \left[ \log \frac{\pi(y|x)}{\frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r(x, y) \right)} - \log Z(x) \right] \end{aligned}

其中我们有分区函数：

Z(x) = \sum_y \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r(x, y) \right).

注意，分区函数仅是 $x$ 和参考策略 $\pi_{\text{ref}}$ 的函数，但不依赖于策略 $\pi$ 。我们现在定义

\pi^*(y|x) = \frac{1}{Z(x)} \pi_{\text{ref}}(y|x) \exp \left( \frac{1}{\beta} r(x, y) \right),