可解释的偏好通过多目标奖励建模和专家混合

49 阅读21分钟

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Abstract:

Reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. The RLHF process typically starts by training a reward model (RM) using human preference data. Conventional RMs are trained on pairwise responses to the same user request, with relative ratings indicating which response humans prefer. The trained RM serves as a proxy for human preferences. However, due to the black-box nature of RMs, their outputs lack interpretability, as humans cannot intuitively understand why an RM thinks a response is good or not. As RMs act as human preference proxies, it is desirable for them to be human-interpretable to ensure that their internal decision processes are consistent with human preferences and to prevent reward hacking in LLM alignment. To build RMs with interpretable preferences, we propose a twostage approach: i) train an Absolute-Rating Multi-Objective Reward Model (ArmoRM) with multi-dimensional absolute-rating data, each dimension corresponding to a human-interpretable objective (e.g., honesty, verbosity, safety); ii) employ a Mixture-of-Experts (MoE) strategy with a gating network that automatically selects the most suitable reward objectives based on the context. We efficiently trained an ArmoRM with Llama-3 8B and a gating network consisting of a shallow MLP on top of the ArmoRM. Our trained model, ArmoRM-Llama3-8B, obtains stateof-the-art performance on RewardBench, a benchmark evaluating RMs for language modeling. Notably, the performance of our model surpasses the LLM-as-a-judge method with GPT-4 judges by a margin, and approaches the performance of the much larger Nemotron-4 340B reward model. Our code and model are released at github.com/RLHFlow/RLH… d-Modeling.

Meta Translation

**题目:**可解释的偏好通过多目标奖励建模和专家混合

**摘要:**从人类反馈中进行强化学习 (RLHF) 已成为使大型语言模型 (LLM) 与人类偏好相一致的主要方法。RLHF 过程通常从使用人类偏好数据训练奖励模型 (RM) 开始。传统 RM 基于对同一用户请求的成对响应进行训练,其中相对评分表明人类更喜欢哪种响应。经过训练的 RM 充当人类偏好的代理。然而,由于 RM 的黑匣子性质,它们的输出缺乏可解释性,因为人类无法直观地理解 RM 为何认为一个响应是好还是不好。由于 RM 充当人类偏好的代理,因此希望它们具有可解释性,以确保它们的内部决策过程与人类偏好一致,并防止在 LLM 对齐中进行奖励盗用。为了构建具有可解释偏好的 RM,我们提出了一种两阶段方法:i)使用多维绝对评级数据训练绝对评级多目标奖励模型 (ArmoRM),每个维度对应于一个人类可解释的目标(例如,诚实、冗长、安全);ii)采用混合专家 (MoE) 策略,其中包含一个闸门网络,该网络根据上下文自动选择最合适的奖励目标。我们有效地训练了一个采用 Llama-3 8B 的 ArmoRM,以及一个在 ArmoRM 之上包含浅层 MLP 的门控网络。我们训练的模型 ArmoRM-Llama3-8B 在 RewardBench(一个评估语言建模 RM 的基准)上获得了最先进的性能。值得注意的是,我们模型的性能超过了使用 GPT-4 评判员作为评判员的 LLM 方式,并且接近于更大规模的 Nemotron-4 340B 奖励模型的性能。我们的代码和模型已在 github.com/RLHFlow/RLH… 上发布。

Introduction

简介

在本文中,我们探讨了奖励模型 (RM) 在人类反馈强化学习 (RLHF) 框架中的作用。RM 在对大型语言模型 (LLM) 进行校准方面发挥着至关重要的作用,因为它们提供了一种可扩展的方法,可将人类偏好集成到模型的训练过程中,从而指导其策略的优化。为了更具体地提供更多背景信息,我们首先回顾了最标准和最流行的 RLHF 框架以及 RM 在该框架中的作用。毫无疑问,主流的 RLHF 方法基于深度强化学习 (DRL) 框架,如关键研究 [Christiano 等人, 2017;Ouyang 等人, 2022;Bai 等人, 2022] 中提出的方法。该框架分三个阶段进行:1) 偏好数据收集;2) 基于布拉德利-特里模型 [Bradley 和 Terry, 1952] 的奖励建模;3) 使用近端策略优化 (PPO) [Schulman 等人, 2017] 和在第 2 阶段构建的奖励模型进行策略优化。该框架在 ChatGPT [Ouyang 等人, 2022] 和 Claude [Bai 等人, 2022] 的后训练中取得了巨大的成功。这些想法也扩展到其他方法,例如拒绝采样微调 [Dong 等人, 2023;Gulcehre 等人, 2023] 和迭代直接偏好学习 [Xiong 等人, 2023;Guo 等人, 2024;Xie 等人, 2024]。在这些方法中,中间策略通常以迭代方式进行部署,以收集新响应,使用奖励模型对响应进行标记,并根据新收集的偏好数据对模型进行微调。在所有这些 RLHF 框架中,奖励模型的能力至关重要,因为它直接影响校准后的 LLM 的质量。

最流行的奖励建模方法基于布拉德利-特里 (BT) 模型的最大似然估计 (MLE) [Bradley 和 Terry, 1952]。尽管它被广泛使用,但 BT 模型在捕捉复杂的人类偏好方面能力有限[Munos 等人, 2023;Swamy 等人, 2024;Ye 等人, 2024]。除了能力问题外,像 BT 模型这样的常见 RM 通常是黑盒模型,它输出分数或偏好而不提供可让人类理解的解释,这使得它容易受到广泛观察到的奖励破解现象的影响[Skalse 等人, 2022;Singhal 等人, 2023;Chen 等人, 2024],即校准后的 LLM 生成的具有高奖励(由 RM 评定)的响应与实际人类偏好不一致 [Gao 等人, 2023;Lin 等人, 2023;Coste 等人, 2023]。一个典型的例子是冗余偏好,即校准后的 LLM 会生成超出必要长度的响应,因为 RM 青睐长句,而不管质量如何 [Singhal 等人, 2023;Wang 等人, 2024a;Chen 等人, 2024]。

在这项工作中,我们旨在通过提高奖励模型的可解释性 [Molnar, 2020] 和可操纵性 [Wong 等人, 2021] 来对其进行增强。以前面提到的冗余偏好为例,假设 RM 的输出是可分解的,这意味着它根据两个因素给一个响应评分较高:40% 的帮助性和 60% 的长度。在这种情况下,我们可以看到 RM 可能存在冗余偏好。此外,如果 RM 是可操纵的,我们可以调整其决策过程,使其评分 100% 基于帮助性。这将不考虑响应长度,从而缓解冗余偏好。提高 RM 的可解释性还能让人类验证当 RM 作为人类偏好的代理时,RM 是否具有与人类相似的内部决策过程。我们相信,这种人机交互过程可以确保 RM 与人类的价值观和偏好一致,从而使 RM 校准过的 LLM 更加可靠和健壮。

从高层次来看,我们提出了一种两阶段方法,首先训练一个多目标 RM,然后学习一个门控层,以混合专家的方式对奖励目标进行标量化。然后,我们通过使用 Llama-3 8B [Meta, 2024] 训练这样的 RM 来验证其有效性,并在一个用于评估 RM 的基准 RewardBench 上获得了最先进的性能。

RLHF Algorithms

RLHF算法

基于PPO的RLHF框架首先由Christiano et al. [2017]普及,并由Bai et al. [2022]; Ouyang et al. [2022]进一步发展以制作ChatGPT和Claude,它利用奖励模型在RLHF过程中提供反馈。然而,让PPO发挥作用在LLM环境中具有挑战性[Choshen et al., 2019;Engstrom et al., 2020]。因此,为PPO提出了很多替代方案,例如REINFORCE算法变体[Li et al., 2023; Shao et al., 2024]。另一种流行的方法是奖励排名微调算法(RAFT) [Dong et al., 2023; Gulcehre et al., 2023],用于LLaMA2 [Touvron et al., 2023]、Llama-3 [Meta, 2024]、Qwen2 [qwe, 2024]和Apple Intelligence。为了实现拒绝采样,我们通常每个提示采样n个响应,并使用奖励模型根据某些标准对它们进行排名。然后,我们对高排名的响应进行模型微调(例如,具有最高奖励值的响应)。该算法是一个强大的基准,特别是在推理任务中 [Aksitov et al., 2023; Havrilla et al., 2024]。上面提到的所有方法都利用外部奖励模型在RLHF过程中提供监督信号。

还有一些研究直接偏好学习算法,它绕过传统的奖励建模,以监督方式直接从偏好数据集中学习(因此称为直接偏好学习)。直接偏好优化(DPO)是最具代表性的一个。然而,原始的DPO是一个离线算法,没有进一步探索环境。后续研究表明,在线迭代变体以很大的优势超越了原始的DPO [Xiong et al., 2023; Liu et al., 2023; Xu et al., 2023; Rosset et al., 2024; Guo et al., 2024; Xie et al., 2024; Zhang et al., 2024; Dong et al., 2024]。具体来说,我们可以迭代部署中间策略收集新响应并使用外部奖励模型标记它们,并使用DPO目标在最新收集的偏好数据上进一步对模型进行微调。

总而言之,所有现有的流行RLHF算法都需要一个外部奖励模型来提供偏好信号以达到最佳性能。

Reward modeling in RLHF

强化学习中人类反馈中的奖励建模

传统上,强化学习中人类反馈中的奖励模型利用布拉德利-特里 (BT) 模型来估计偏好 [Bradley and Terry, 1952;Ouyang et al., 2022;Bai et al., 2022;Wang et al., 2023b;Rafailov et al., 2023]。尽管得到广泛使用,但最近的研究强调了 BT 模型无法处理复杂的多重偏好的缺点 [Munos et al., 2023;Swamy et al., 2024;Ye et al., 2024]。有人认为,DPO 对齐模型可以用作提供基于标记奖励的奖励函数 [Rafailov et al., 2024;Zhong et al., 2024],但仍然局限于 BT 模型。还有一些工作放弃了 BT 假设,直接对一个响应比另一个响应更受青睐的概率进行建模 [Jiang et al., 2023;Zhao et al., 2023;Liu et al., 2023;Dong et al., 2024]。这些模型被称为成对偏好模型,因为它们将两个响应作为输入。另一条工作线探索了多目标奖励模型,该模型试图更有效地捕获复杂的人类偏好 [Touvron et al., 2023;Wang et al., 2023aWang et al.,,2024a]]。然而,这些多维信号的整合通常依赖于线性组合等朴素的方法,这表明需要更复杂的技术。

Multi-Objective Reward Modeling

多目标奖励模型

当前用于 LLM 对齐的大多数奖励模型都是在具有注释首选项的成对数据上使用 Bradley-Terry 损失函数进行训练的 [Bai et al., 2022; Touvron et al., 2023; Ouyang et al., 2022],采用与 InstructGPT 相同的方法 [Ouyang et al., 2022]。成对的偏好注释本质上是二进制标签,例如 {0, 1},表示哪个响应是被注释者偏好的。这里称它们为相对评级。然而,在最近的一些高质量数据集中,相对评级是从绝对评级转换过来的。例如,UltraFeedback [Cui et al., 2023] 使用 5 个目标绝对评级进行整理:总体评分、遵循说明、真实性、诚实性和有用性(每个目标基于预定义的评分标准有 5 个不同的评分)。该数据集使用总体评分或剩余 4 个目标的平均评分进一步二进制化为成对比较,以训练奖励模型或 DPO。原始评分是细粒度的,因为每个目标都有连续的整数评分(例如,1、2、3、4、5)。然而,二值化过程会丢弃一些细粒度信息。例如,具有评分 1:5 的一对示例与具有评分 2:3 的另一对示例以相同的方式标记。丢弃细粒度偏好信息是有益的,这一说法是站不住脚的。因此,我们希望在奖励模型中包含所有细粒度信息。

由于训练示例带有多目标评分,因此使用这些评分进行学习的直接方法是多目标回归 1。此处简要介绍训练过程。我们认为每个示例都包含提示 x(包括来自先前对话轮的上下文)、响应 y 和一个 k 维评级向量 r ∈ R k,其中每个维度对应一个奖励目标,例如乐于助人和真实性。现在,我们将一个经过预训练且仅包含解码器的 LLM(没有原始输出线性层)作为特征提取器 f θ。我们让 x ⊕ y(x 和 y 的连接)通过解码器层,并将其作为 d 维特征,取最终解码器层在最后一个令牌上的隐藏状态。此外,我们在 f θ 的顶部附加了一个新的线性回归层 w ∈ R d×k,它输出一个 k 维评级预测。该模型可以使用回归损失函数进行简单训练:

min θ,w E x,y,r∈D ∥w ⊤ f θ (x ⊕ y) -r∥ 2 2 (1)

Mixture-of-Experts Scalarization of Reward Objectives

混合专家标量化奖励目标

一个 ArmoRM 可以预测每个响应的多目标奖励。然而,多维度的输出需要减少到一个标量,以便对测试示例进行排名或进行成对比较。一种直接的方法是像多任务学习文献中所述的那样采用多个目标的线性组合 [Hu et al., 2024]。然而,对于复杂应用场景而言,使用固定组合系数过于严格。例如,对于容易触发不安全响应的提示,应分配给安全目标一个较大的系数,因为我们希望奖励模型将不安全响应排在安全响应的下面。对于数学问题求助的提示,安全目标变得不那么相关,与帮助相关的目标应该成为主要关注点。

有了上述见解,我们提出了一个条件化于提示 x 的奖励目标的 MoE 风格的标量化。在架构层面,我们只需要遵循常见的 MoE 实践来添加一个门控层 gϕ: Rd → {v ∈ R k | vi ≥ 0 并且 vi = 1},该层根据从提示中提取的特征 fθ(x) ∈ Rd 输出奖励目标的非负系数(总和为 1),即 x 的最后一个标记上的隐藏状态。请注意,fθ(x) 是在 fθ(x ⊕ y) 的前向传递中免费提供的,这使得管道推断变得高效。

门控层 gϕ 可以简单地是一个浅层 MLP(即完全连接网络),它接受提示特征 fθ(x) 并输出一个 k 维向量,然后是一个 softmax 函数,以确保输出向量的元素是非负且总和为 1。然而,大多数奖励目标与冗长度高度相关,这表明存在很强的冗长度偏差 [Saito et al., 2023]。使用非负门控系数将使最终输出继承该偏差。为了解决这个问题,我们使用冗长度目标奖励调整了每个奖励目标 ri, r′i ← ri - λi rverbose(2) 其中惩罚系数 λi 被选择为一个合适的校正指标(例如,皮尔逊或斯皮尔曼相关系数)和参考数据分布 D, CorrD(r′i, rverbose) = 0 (3) 调整后的奖励向量表示为 r′ ∈ R k。

最后,我们将门控系数乘以多目标奖励,以获得给定提示 x 的响应 y 的标量分数 s, R = gϕ(fθ(x))⊤ r′(4) 为了训练门控层,我们冻结骨干网和回归层,并仅使用具有附加缩放变量 β ∈ R 的 Bradley-Terry 损失对门控层进行训练, min ϕ, β E -log exp(βR chosen)exp(βR chosen) + exp(βR rejected)(5) 其中 Rchosen 和 Rrejected 是每个成对示例中被选择和被拒绝的响应的偏好分数,(x, ychosen, yrejected)。

Experiment

ArmoRM 的实现我们使用 Llama-3 8B [Meta,2024] 架构,并使用 Dong 等人训练的 Llama-3 8B 的 Bradley-Terry RM 的参数初始化模型主干。[2024]。我们在主干上附加一个线性层,并在保持主干冻结的同时使用回归损失对其进行训练。训练涉及来自 8 个数据集的 19 个目标(包括有用性、正确性、冗长性等),详情见附录 A。

Implementation of MoE.

混合专家网络的实现

门控层是一个具有 1024 个隐藏单元的 3 个隐藏层 ReLU MLP。对于等式 (3) 中的相关性指标,我们采用斯皮尔曼相关性 [Spearman, 1904],并将 UltraFeedback [Cui 等,2023] 用作参考数据分布。缩放变量 β 初始化为 100,门控层在 LLM 主干保持冻结的情况下训练。训练在 10 个成对偏好数据集上进行,详情见附录 A。 [Wolf 等,2019] 和 Scikit-learn [Pedregosa 等,2011]。

硬件。训练多目标奖励建模阶段仅涉及训练最后一层线性层(即线性探测),因此我们本地保存从主干提取的特征,然后使用 Scikit-learn 的线性回归求解器在 CPU 上进行线性探测。对于混合专家网络阶段,我们也本地保存特征,然后在单个 NVIDIA A6000 GPU 上训练门控层。

超参数。使用 AdamW 优化器 [Loshchilov 和 Hutter,2019] 训练门控层,学习率为 0.001,步长为 10,000,批量大小为 1024。我们还应用余弦衰减学习率调度器。

评估基准。RewardBench [Lambert 等,2024] 是第一个用于评估语言建模奖励模型的基准。它包含一组多样化的任务,旨在评估 LLM 对齐的奖励模型的性能,包括四个主要类别(聊天、困难聊天、安全性、推理)和一类先验集。每个类别都包含具有成对偏好数据的多个数据集,其中每对都包括一个选定的文本响应和一个拒绝的文本响应。总分计算为五个类别的加权平均值,其中四个主要类别的权重为 1.0,先验集类别的权重为 0.5。

Evaluation Results

表 1 比较了我们的方法(ArmoRM + MoE)和其他奖励模型的性能。从这些结果中可以得出几个重要的观察结果: • 我们的模型明显优于为我们的模型提供 LLM 主干的 Llama-3 8B Bradley-Terry RM。这证明了我们的 ArmoRM 设计和 MoE 闸门机制在提高奖励模型性能方面的有效性。 • 我们的模型还以相当大的优势优于采用 GPT-4 评审者的 LLM 即评审方法 [Zheng 等,2023],表明我们的模型可以用作 GPT-4 在许多标注工作中的更便宜的替代品。 • 我们的 8B 参数模型的性能几乎与 Nemotron-4 340B RM Wang 等相当。[2024b],一个 340B 参数的巨型奖励模型。这凸显了我们的奖励建模方法的力量和潜力。

Conclusion

在这项工作中,我们解决了强化学习中自人类反馈 (RLHF) 奖励模型中可解释性的关键问题——用人类偏好调整大型语言模型 (LLM)。我们提出了一种新的两阶段方法,它由一个 ArmoRM 和一个带有门控网络的混合专家 (MoE) 策略组成。我们用 Llama-3 8B 训练的 ArmoRM 在 RewardBench 上取得了最先进的性能,这证明了我们奖励建模方法的有效性。

A Experimental Details

实验细节

**许可证。**我们使用和微调的模型遵循 Meta Llama3 许可证。我们使用的所有数据集都是开源的,可用于研究目的(某些可用于商业目的,例如 HelpSteer [Wang 等,2023a])。

**个人身份信息或攻击性内容。**根据使用本项工作中所有数据集的数据整理过程描述,它们不包含命名或唯一识别个人的任何信息,但一些示例包含名人姓名。然而,BeaverTails [Ji 等,2023]、PKU-RLHF [Ji 等,2023] 和 HH-RLHF [Bai 等,2022;Ganguli 等,2022] 包含攻击性内容,这些内容是故意选择的,目的是建立旨在教给 LLM 哪些响应是安全生成的人类偏好数据集。

**多目标训练数据集。**在多目标奖励建模阶段,我们使用具有相应奖励目标的训练数据集,如下所述:

• HelpSteer [Wang 等,2023a] (35k 数据): helpsteer-helpful helpsteer-correctness helpsteer-coherence helpsteer-complexity helpsteer-verbosity(这是我们在等式中使用的详细度目标。(2) 和 (3))

• UltraFeedback [Cui 等,2023] (240k 数据): ultrafeedback-overall-score ultrafeedback-instruction-following ultrafeedback-truthfulness ultrafeedback-honesty ultrafeedback-helpfulness

• BeaverTails-30k [Ji 等,2023] (30k 数据): beavertails-is-safe

• CodeUltraFeedback [Weyssow 等,2024] (50k 数据): code-complexity code-style code-explanation code-instruction-following code-readability

• Prometheus [Kim 等,2024a]

(200k data):

Prometheus 分数

  • Argilla-Capybara2 [Daniele 和 Suphavadeeprasit,2023](15k 数据):
    • argilla-overall-quality
  • Argilla-OpenOrca3(13k 数据):
    • argilla-judge-lm
  • Argilla-Math-Preference4(2.4k 数据):该数据集与 UltraFeedback 的目标 ultrafeedback-instructionfollowing 相同。

多目标数据预处理

在合并具有绝对评分的多个数据集(例如 UltraFeedback 和 HelpSteer)时,我们发现数据存在一些问题。以下是这些问题以及我们的解决方法:

  • **不同的评分量表:**不同的数据集可能使用不同的评分量表。例如,HelpSteer 使用 0-4 的评分量表,而 UltraFeedback 使用 1-10 的评分量表。我们将所有评分线性转换为 0 到 1 之间。对于 True/False 评分(表示安全或不安全)的 BeaverTails,我们将 True 视为 1,False 视为 0。
  • **类似的目标:**不同的数据集存在一些非常相似的目标。例如,Helpfulness 目标同时出现在 HelpSteer 和 UltraFeedback 中,而 HelpSteer 的 Correctness 目标与 UltraFeedback 的 Truthfulness 非常相似。在仔细检查数据集后,我们决定将类似的目标视为独立的目标,因为它们是由不同的评委按照不同的评分规则进行评级的。例如,HelpSteer 的数据由 200 位美国人工标注员根据定制的评分规则进行评级,而 UltraFeedback 的数据则由 GPT-4 按照另一套评分规则进行标记。
  • **合并数据集的标签缺失:**在合并多个数据集时,合并数据集的每个示例只包含一部分评分;例如,来自 HelpSteer 的每个示例只包含 5 个源自 HelpSteer 数据集的评分,而没有其他目标(例如,来自 UltraFeedback 或 BeaverTails 的目标)的评分。因此,在优化回归损失时,我们简单地忽略每个示例的缺失评分维度,只计算剩余维度的损失。

MoE 的训练数据

在门控层的阶段,我们使用以下首选项数据集:

  • HelpSteer [Wang 等人,2023a](37k 个对)
  • UltraFeedback [Cui 等人,2023](340k 个对)
  • SHP [Ethayarajh 等人,2022](93k 个对)
  • HH-RLHF [Bai 等人,2022;Ganguli 等人,2022](157k 个对)
  • PKU-SafeRLHF-30K [Ji 等人,2023]
  • Argilla-Capybara(15k 个对)
  • Argilla-Math-Preferences(2.4k 个对)
  • CodeUltraFeedback [Weyssow 等人,2024]

首选项数据预处理

对于没有二值化为响应对的数据集(例如 HelpSteer、UltraFeedback、SHP),我们采用 Dong 等人 [2024] 中预处理的二值化版本。