人类反馈强化学习实用指南——人类反馈在强化学习中的角色在本章中，我们将把关注重点转向人类反馈在强化学习（RL）中的作用，

在本章中，我们将把关注重点转向人类反馈在强化学习（RL）中的作用，并从更宏观的角度来审视这一主题。在上一章中，我们已经说明了：与传统 RL 方法（例如 Q-learning）相比，带有人类反馈的强化学习（RLHF）能够显著提升并加快策略训练。将人类反馈引入 RL，已经在实践应用和研究文献中的多个方向上不断演进；近年来，尤其是在大语言模型领域，它的热度更是快速上升。

尽管本章依然保持较宽的讨论视角，但我们暂时还不会深入到人类反馈在大语言模型中的具体应用。相反，我们的目标是先理解它在更广义 RL 语境中的整体意义与影响。为了方便希望继续深挖的读者，文中也提供了一些相关参考资料。

在传统 RL 方法中，正如上一章所讨论的，通常采用的是状态—动作—奖励框架，因此必须设计一个奖励函数来定义具体目标。这个函数会激励智能体通过其行为来最大化这些目标。对于某些特定任务，这类函数是可以设计出来的；但这种能力往往只适用于定义明确的任务。随着需求范围和目标复杂度不断扩大，要精确地定义奖励函数就会越来越困难。奖励函数中的不准确之处，或者环境中出现分布漂移（distributional shift）的情况，都可能导致智能体产生不理想的行为：它可能会为了达成目标而不计后果，或者在未见过的场景中采取导致意外结果的动作。这类副作用或意外后果可能会带来成本，甚至引发安全风险。

因此，人类干预以及模型与人类意图的对齐，在应对这些挑战时就变得非常关键。训练过程中的人类反馈，有助于学习出能够抵抗训练数据分布漂移的策略，同时减轻奖励函数不准确所带来的影响。

本章将覆盖以下内容：

使用人类反馈提升 RL 中的学习效率
融入人类专业知识
RL 中人类反馈的类型
将人类偏好纳入 RL
偏差与其他挑战

使用人类反馈提升 RL 中的学习效率

当训练一个 RL 智能体去完成某个特定目标时，智能体往往必须经历大量迭代，直到收敛到较高奖励。这意味着它要走过许多通过试错得到的状态—动作序列或轨迹，而这些轨迹往往并不是最优的。如果智能体必须在复杂环境中进行导航，这类轨迹的数量可能会非常大。收集这些低奖励轨迹所形成的经验，最终可能会变得代价高昂。

RL 智能体面对的这些挑战——例如在复杂环境中导航、经历大量试错迭代——都说明我们需要更高效的学习策略。而引入人类反馈，正是一种很有前景的方式。

例如，在训练自动驾驶车辆时，人类反馈可以帮助智能体快速学会交通规则和安全驾驶行为，并对各种路况作出适当响应，而不必非得把所有需要规避的场景都逐一经历一遍。人类反馈还可以帮助缓解探索—利用权衡问题。通过对潜在有价值的动作或状态提供提示、引导或“轻推”，人类可以引导智能体更高效地探索，把注意力集中在那些更有可能产生有价值信息的状态—动作空间区域上。

引入人类反馈，还能让 RL 智能体从专家示范或人类偏好中学习，从而作出信息更充分的决策。例如，在医疗场景中，RL 算法可以结合医学专业人士对不同干预手段的有效性与安全性所提供的反馈，来学习治疗策略。也就是说，与其让智能体花费大量训练轮次去自己摸索哪些轨迹更有价值，直接使用人类专家的指导，通过明确人类偏好或意图，就能节省大量时间。

此外，在仿真器或模型无法完美刻画现实世界的场景中，人类反馈还能帮助缩小仿真与现实之间的差距，从而加快收敛，并提升泛化能力。

让我们重新回到前一章中的 RL 问题：一个智能体需要在网格世界中学习导航，到达目标状态，同时避开障碍物。在上一章的例子中，智能体到达目标状态时会得到 +10 奖励，撞上障碍物时得到 -5 奖励，而每走一步则给予 -1 奖励，用来惩罚到达目标所花费的时间过长。目标是学习出一个能够随着时间推移最大化累计奖励的策略。

在这个网格空间中，如何为这些奖励赋值，属于奖励设计（reward design），但它还不算人类反馈，因为在训练过程中并没有人类输入参与其中。

如果没有人类反馈，智能体可能会使用像 epsilon-greedy 这样的探索策略，在网格世界中随机探索，并通过试错逐步学会哪些动作会带来更高奖励。对于较小的状态空间，这看起来似乎不是问题；但在大状态空间下，这种方式会非常缓慢且低效。

现在，让我们把人类反馈引入学习过程。人类监督者可以观察智能体的动作，并以偏好或对智能体行为的评价形式提供反馈。在上一章的网格世界例子中，人类会对智能体采取的每个动作作出评价，给出二元反馈：这个动作是好的（+1）还是坏的（-1）。这种反馈是针对一系列网格单元状态转换给出的，也就是根据当前状态以及智能体执行动作后到达的下一状态来判断。

这种类型的人类反馈属于评价式反馈（evaluative feedback），因为在这个问题里，目标是清楚且客观已知的，因此可以直接给出反馈。

我们可以把这个 RL 问题建模为一个马尔可夫决策过程（Markov decision process）：当前状态 s 和采取的动作 a 会导致下一个状态 s'，并且下一个状态的转移概率只依赖于当前状态和动作，即 P(s'|s,a)；同时，每个这样的序列都会被赋予奖励 R(s,a,s')。智能体的目标是最大化累计回报，也就是动作价值函数 Q(s,a)。如果 r_t 表示时刻 t 的奖励，那么经过折扣因子 γ 对未来奖励进行折扣后的累计奖励或总回报为：

（原文此处接公式）

我们将基于人类反馈的奖励引入 RL 的方式，是把人类反馈加到环境奖励上。增强后的奖励函数可定义为：

R*(s,a,s') = R(s,a,s') + H(s,a,s')

其中，H(s,a,s') 表示：在状态 s 下采取动作 a 并到达下一状态 s' 时，人类给出的反馈。这个反馈可以用于引导智能体的学习过程：对带来正面结果的动作进行强化，对导致负面结果的动作进行抑制，从而最终加速学习过程，并提升智能体的决策能力。

图 2.1——RLHF 示意图，展示奖励模型如何与环境—智能体系统集成

在第 1 章最后一节中，我们使用的人类反馈，是把奖励映射到当前状态和下一状态上的，因此这种反馈是针对“所采取的动作”及其在下一状态中产生的后果给出的。随后，我们通过实验将“从零开始训练智能体”和“使用人类反馈训练”进行了对比，并证明：使用人类反馈能够显著加快训练速度。

当然，根据具体场景不同，还有其他几种整合人类反馈的方式：

状态—动作反馈 H(s,a)：这种反馈直接提供关于当前状态下某个动作质量的信息，而不考虑该动作具体导致了什么结果或下一状态。当某个动作的好坏无需观察后果就能评估时，这种方式会很有用。
状态反馈 H(s)：人类反馈也可以直接作用于状态层面，用来表示当前状态是否理想或合适。这样的反馈能够引导探索过程，把智能体引向那些更可能通向理想结果的状态。
累计反馈 H(τ)：在某些情况下，人类反馈可能是针对整条轨迹 τ 给出的，用来刻画智能体在一整段动作与状态序列中的整体表现质量。这种反馈特别适用于评估长期表现，也有助于鼓励行为的一致性，或推动策略向期望行为收敛。当环境非常复杂，而我们又希望限制人类反馈的粒度，不想在巨大的状态—动作空间中逐项给反馈时，这种方式尤其有帮助。
偏好反馈 H(a1>a2)：人类并不直接给出奖励或评价，而是以“比较”的形式反馈，比如在两个动作之间表达偏好。这类反馈常见于基于偏好的强化学习（preference-based RL）中，智能体通过对专家示范或动作之间的比较来学习。

因此，上一章实现和讨论的人类反馈方式，只是把人类反馈纳入 RL 训练、从而加速学习过程的众多方法之一。接下来，我们将进一步讨论如何把人类专业知识纳入其中。

融入人类专业知识

在 RL 中利用领域知识，可以显著提升性能和决策质量，因为它为理解问题空间、引导学习过程提供了更有结构的框架。所谓领域知识，是指与特定问题领域相关的专业知识与洞见，它们可能来自多个来源，例如主题专家、既有研究，或实际经验。

问题建模

领域知识首先有助于对 RL 问题进行建模：通过识别相关状态、动作和奖励，缩小搜索空间，从而让学习过程更加高效。例如，在机器人领域，理解环境动力学和机器人的物理约束，有助于设计更有效的状态表示和动作空间。

下面分别说明领域知识如何帮助定义 RL 框架中的各个组成部分：

定义状态

把关键状态纳入智能体的观测，是影响训练效率的关键因素。加入过多无关状态，会引入噪声和额外负担；对于神经网络这类函数逼近器而言，还会带来不必要的高容量需求，导致训练变慢，甚至让模型学到一些无关的相关性。相反，如果漏掉了某些重要状态，则可能迫使智能体额外学习和建模原本本可以直接指定出来的状态关系。

例如，对于机器人（如机械臂或移动机器人）而言，如果只提供位置信息而不提供速度信息，往往会导致学习效率低下。

定义动作

主题专家还可以帮助明确哪些动作是可用的，以及这些动作受到哪些约束。例如，一个机械臂可能只能在特定角度范围内运动，而对这些动作约束的专家知识，将直接决定动作空间的定义方式。

定义奖励

在复杂工业场景中，什么样的状态—动作区域是理想的、什么样的是不理想的，对普通人来说未必显而易见。而主题专家可以帮助更准确地界定这些区域，并更精细地塑造奖励函数。

Episode 长度与终止条件

人类专业知识还可以帮助决定：某条轨迹应在何时终止、一个 episode 应在何时结束。例如，当轨迹进入不安全区域时，可以及时中止。这样既能避免在没有学习价值的区域中反复探索，也能提升训练效率。

需要注意的是，这里提到的所有“融入人类专业知识”的方式，即便是在传统 RL 中也同样有价值。而在 RLHF 中，除了环境本身定义的原始奖励之外，还可以额外引入来自专家的评价式反馈奖励。

RLHF 使用人类反馈来训练 AI 系统，使其表现得更接近人类。在 RLHF 中，人类反馈被用来评估智能体响应或动作的质量，并引导学习过程。它的目标，是让 AI 系统在响应上更准确，也更符合人类的预期。

这两种做法之间的关键差异，在于人类专业知识扮演的角色不同：

在“把人类专业知识纳入 RL”时，专业知识主要用于定义问题并引导学习过程
而在 RLHF 中，人类反馈主要用于评估并改进智能体表现

换句话说，把人类专业知识纳入 RL，更偏向于“定义问题、设定目标”；而 RLHF 更偏向于“通过反馈来帮助实现这些目标”。

为了说明二者的差异，可以看一个机器人例子：

在“把人类专业知识纳入 RL”的做法里，主题专家可能会为机械臂定义状态、动作和奖励，例如关节角度、电机转速、到目标的距离等。
在 RLHF 中，人类则可能会对机械臂动作的质量进行反馈，例如评价它运动是否平滑、是否准确；这些反馈随后会用于更新奖励函数，进而提升机械臂表现。

在实践中，这两种方式是可以结合起来使用的。还是机械臂这个例子：专家可以先定义状态、动作和奖励，再收集机器人运动轨迹，并让人类对这些轨迹进行评分或打分。基于人类对轨迹质量的反馈，就可以通过构建奖励模型来进一步优化智能体训练。

为了应对动态环境和变化，还可以把人类专业知识纳入系统设计和算法中，训练具备适应能力的 RL 系统，以对抗环境因素变化带来的影响。而在出现意外场景或实时突发情况时，人类反馈还可以进一步帮助修正策略决策。

接下来，我们将进一步讨论 RL 中常见的人类反馈类型，以深化理解。

RL 中人类反馈的类型

把人类反馈纳入 RL，在过去已经以多种不同方式被尝试过；而近年来，随着大语言模型与基础模型训练的兴起，这一方向获得了更大关注。利用人类信号来训练智能体，本身就有多种形式。

从大类上看，人类示范（human demonstration）与人类反馈（human feedback）通常被视为两类不同的人类信号使用方式。

在 RL 中，奖励函数设计与工程实现往往带有主观性，而且要设计得准确并不容易。利用人类示范来定义奖励函数，是逆强化学习（inverse RL）这一子领域所研究和实践的内容。类似地，如果基于人类示范，直接学习从状态到动作的映射，则称为行为克隆（behavioral cloning）。在某些环境非常复杂、连专家都难以明确设计奖励函数的情况下，这种做法会特别有帮助。

逆强化学习和行为克隆都属于从示范中学习（learning from demonstration, LfD）这一类方法。

模仿学习（imitation learning, IL）与 LfD 很相近，它同样包含行为克隆和逆强化学习，但它还可以扩展到从各种形式的专家行为中学习，不管这些行为是通过显式示范提供的，还是通过交互隐式体现出来的。LfD 主要强调直接示范，但它也可以结合对动作后果的学习，以进一步修正所学行为。因此，LfD 和 IL 都可能涉及从动作后果中学习，它们之间的区别更多在于方法范围和实现路径，而不是反馈类型本身。

如果读者想进一步了解逆强化学习，可以参考以下资料：

A Survey of Inverse Reinforcement Learning: Challenges, Methods and Progress
Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization
Generative Adversarial Imitation Learning

而对于行为克隆以及更广义的模仿学习，可以参考：

An Algorithmic Perspective on Imitation Learning
Berkeley 的 CS 285

讨论到这里，我们就自然转向了“引入人类反馈”这一主题。它的目标，是尽量减少奖励设计与工程实现中的主观性和工作量。

过去二十年里，RL 中的人类反馈方法持续演进。当前“基于人类反馈的强化学习”这一说法，已经涵盖多种方法，大体可以分为以下几类：

从人类奖励或评价式强化中学习
基于偏好的强化学习
使用人类反馈来定义奖励模型
在部分经验上使用绝对反馈的半监督 RL

从人类奖励或评价式强化中学习

这一类方法中，人类的评价式反馈会直接影响智能体的奖励或学习过程。它包括：

标量奖励：人类根据智能体的动作或表现，直接给出正向或负向的数值反馈。这种直接反馈会随着时间塑造智能体行为。
二元反馈：这是简化版的评价反馈，人类只需指出某个动作或结果是好还是坏，通常用 +1（正向）或 -1（负向）表示。你在上一章最后一节已经见过这种做法。

关于“从人类生成的奖励中学习”，以下资料可供进一步阅读：

Learning from human-generated rewards
TAMER: Training an Agent Manually via Evaluative Reinforcement

基于偏好的强化学习

这一类方法关注的是：人类反馈并不表现为绝对奖励，而是表现为偏好。人类会在不同动作或结果之间表达偏好，从而引导智能体策略发展。它通常包括以下方式：

成对偏好（Pairwise preferences）

人类通过比较两条轨迹或两个结果，指出自己更偏好哪一个。智能体利用这些偏好信息来学习与人类偏好一致的奖励函数或策略。

例如，给定两条都能到达终点的机器人运动轨迹，其中一条可能比另一条更安全、或者动作更自然。与其让人类去设计一个包含复杂特征的奖励函数，不如直接让人类表达“我更喜欢哪条轨迹”，往往要容易得多。类似地，让用户直接比较电影 A 和 B 的喜好，也比试图从使用行为中反推出偏好更直接。

排序（Ranking）

这是对成对偏好的扩展：人类可以对多条轨迹或多个结果进行排序，从而为智能体提供更细致的偏好信息。对于机器人轨迹来说，让人类按好坏排序，往往比手工提取复杂特征并据此建模要简单得多。类似地，用户直接给出评分和排序，也能简化目标定义，减少为了覆盖所有可能轨迹或结果而构造复杂奖励函数时产生错误的风险。

基于偏好的 RL 通常会直接利用偏好来优化策略，例如：

Reward-rational (implicit) choice: A unifying formalism for reward learning
A Survey of Preference-Based Reinforcement Learning Methods

但有时它也会通过修改奖励函数来发挥作用，例如：

Deep RL from Human Preferences

用人类反馈来定义奖励模型

在这一类方法中，人类反馈被用来构建或修正 RL 智能体所要优化的奖励模型。详见：

A Survey of Reinforcement Learning from Human Feedback

它通常包括以下方式：

奖励模型训练

人类对结果或轨迹质量提供反馈，这些反馈被用来训练奖励模型，而该奖励模型再反过来引导智能体学习过程。

例如，在训练自动驾驶汽车时，人类专家可能会审阅并评分不同驾驶场景，例如变道或刹车决策。他们对这些场景的反馈，会被用来构建一个奖励模型，以指导车辆的驾驶策略，从而确保安全性以及对交通法规的遵守。

交互式奖励设定

人类可以迭代式地提供反馈，不断修正奖励模型，以确保它与期望目标和价值观保持一致。这种反馈可能包括基于已观察到的智能体行为进行修正或调整。

例如，在开发一个视频游戏 AI 时，开发者最初可能根据“通关”或“高分”等通用目标搭建一个初始奖励模型。随着 AI 持续游玩，人类反馈可以帮助不断微调这个奖励模型，使其更好地捕捉诸如“策略性玩法”或“玩家体验”这类更微妙的目标，从而确保 AI 的行为符合预期的游戏体验。

直接奖励反馈

人类直接根据期望结果，对智能体表现给出明确反馈，而这些反馈随后被用于构建奖励模型。

例如，在训练客服聊天机器人时，人类评估者可能会审阅聊天交互，并反馈机器人处理用户问题的效果如何。这些反馈会直接影响奖励模型，帮助机器人学会更有效地回应问题，并提供更令人满意的客户服务。

这种类型的反馈与方法具有更好的可扩展性，而这也正是接下来我们会重点关注的方向。

在部分经验上使用绝对反馈的半监督 RL

这种方法把监督学习与 RL 结合起来：人类只对智能体一部分经验给出绝对反馈。相关讨论可参考 Paul Christiano 关于半监督 RL 的文章。

它包括以下形式：

标注经验

人类会对某些特定经验（状态—动作对）打标签，例如标记某个动作是正确还是错误，智能体利用这些信息更高效地学习。

例如，若一个机械臂被训练来把不同物体分拣到不同箱子中，人类可以审阅其中一部分分拣动作，并根据物体是否被放入正确箱子，将这些动作标为正确或错误。

利用部分监督进行自举

智能体只在部分经验上获得详细反馈，并利用这些信息，通过 RL 算法去推动对未标注经验的学习。

例如，在算法交易中，一个 RL 智能体可能会对某些特定交易动作获得详细反馈，例如某笔交易是否盈利。这样的反馈有助于智能体理解不同策略的影响，并把这种认知迁移到那些没有被显式标注的交易经验上。

混合式方法

你可以把绝对反馈与其他形式的人类反馈（例如评价式奖励或偏好）结合起来，以进一步提升学习效率与效果。

例如，一辆自动驾驶车可能会在某些特定驾驶场景上收到绝对反馈，如“这次变道是安全的”，同时也收到评价式反馈，如“整体驾驶风格偏激进”。把这些不同类型的反馈结合起来，可以帮助车辆更全面地改进其驾驶策略。

接下来这一节，我们将聚焦于：如何把人类偏好纳入 RL 策略。

将人类偏好纳入 RL

把人类偏好与信号纳入 RL 训练流程或系统架构，通常要经历若干步骤，如图 2.2 所示。

第一步是：如何收集人类偏好。这些偏好是按每一步收集的二元输入，还是按智能体训练的每个 episode 收集，或者按一段轨迹序列来收集？人类是在多个动作、多个结果状态，还是多段状态轨迹之间做选择？

第二步是：如何利用这些人类偏好来指导策略发展。策略是被直接更新，还是通过更新价值函数间接更新？奖励函数会因为人类偏好而被修改，还是先构建并训练一个奖励模型，再利用这个模型来训练智能体？

第三步也是最后一步，是与伦理和安全相关的考虑。我们必须在训练流程中构建并集成相应机制，以缓解偏差、提升公平性、维持透明度，并确保 AI 在长期上仍然与人类保持对齐。

在下面的小节中，我们会逐一分析这三个步骤。

图 2.2——RLHF 流程，以及把人类反馈纳入其中时需要考虑的事项

收集人类偏好

收集人类信号或偏好的过程，本质上涉及两部分：

给人类提供一个隐含选项集合，使其可以从中作出选择
使用一个函数或模型，把人类做出的这些选择映射到智能体行为上

这种人类反馈或选择的类型，被称为奖励理性隐式选择（reward-rational implicit choice）。如果给定一个 grounding function，它就可以被建模为一种“使奖励最大化的选择”。

人类反馈的形式有很多，例如：

比较（comparison）
示范（demonstration）
纠正（correction）
改进（improvement）
关闭（turning off）
代理奖励（proxy rewards）
奖励与惩罚
初始状态
归因分配（credit assignments）

具体采用哪一种，取决于反馈类型。

例如：

在基于比较的反馈中，只要识别出哪个输入更受偏好即可
在代理奖励设置中，模型会把数值奖励本身当作反馈
在奖励—惩罚反馈中，会明确地给动作赋予正向或负向结果

利用人类偏好

收集到的人类偏好，可以通过某种效用函数、映射函数或 grounding function 用来引导策略。这个 grounding function 或模型，不仅依赖于人类所做出的选择，还依赖于具体领域与场景。

它可以非常简单，比如像上一章那样，直接把 +1 或 -1 作为奖励赋值；也可以是一个代理奖励；或者只是让用户在多个选项中进行选择，只要每个选项都有唯一标识即可。

评估与审计人类偏好

在 RL 系统中，对人类偏好进行评估与审计，是确保系统能够准确反映用户价值，并且公平、有效运作的关键。为了评估 RL 系统整合人类偏好的效果，并识别可能的改进空间，就必须确保系统具备足够的可观测性：例如记录人类偏好本身，以及这些偏好在训练过程中是如何被使用的。

跟踪性能指标，对于评估 RL 系统的有效性至关重要。下面是一些关键指标示例：

对齐指标（Alignment metrics）

这些指标衡量 RL 系统的决策与用户偏好的一致程度。衡量方式可以包括：

偏好满足分数
用户满意度评分
对用户显式偏好的遵守程度

多样性指标（Diversity metrics）

这些指标评估系统能够兼容多大范围的偏好。确保偏好多样性非常重要，因为系统需要处理广泛的用户价值观。衡量方式可以包括：

被满足的用户偏好多样性
系统应对不同用户价值观的能力

除了跟踪指标外，还可以对已上线系统进行定期审计。这可能包括自动化检查与人工监督相结合的周期性评审。邀请独立第三方进行无偏审计，也能提供外部视角，并增强可信度。

同时，持续性的反馈机制也很重要。持续收集用户反馈，有助于发现：用户真实偏好、系统实际动作，以及训练输入（例如奖励模型）之间是否存在偏差。这可能需要开发交互式平台，让用户能够主动报告问题、提出改进建议，并直接对系统决策给出反馈。

在这一节中，我们讨论了把人类偏好纳入 RL 系统所需的关键环节，尤其是三个重要步骤：

收集人类偏好
借助 grounding function 或模型来利用这些偏好
对这些偏好进行评估与审计，以确保系统与真实意图在对齐和覆盖范围上保持正确

虽然这些步骤有助于提高偏好收集、利用和时间一致性的质量，但人类反馈数据本身仍然存在不少挑战。下面我们将讨论其中的偏差与其他问题。

偏差与其他挑战

尽管人类反馈在 RLHF 中非常有价值，但它也会带来各种挑战、不准确性与偏差。这些问题大体可以分为技术层面的挑战与伦理层面的挑战，并且既需要技术手段来处理，也可能需要法律与制度层面的配套。

人类偏好天然带有主观性，而且个体差异非常大。一个人高度看重的东西，另一个人可能觉得并不重要。即便是同一个人，其偏好也会随着时间发生变化，受到新经历、情境变化和需求演化的影响。因此，我们必须认真评估人类偏好，并把这些人类信号中的不完美纳入考量。

下面是一些处理人类偏好多样性的方式：

使用共识方法来聚合多个偏好，例如多数投票、平均排序或加权评分，以在多用户偏好之间找到尽可能反映整体共识的平衡点
将具有相似偏好的用户分组聚类，并为每个群体创建定制化的 RL 策略
设计能够在多种可能偏好场景下都表现良好的 RL 算法，使策略不会对某一种具体偏好变化过于敏感
使用正则化技术，避免对某些特定偏好过拟合，从而构建更具泛化能力、能够适应偏好变化的策略。例如，在 Reinforcement Learning from Diverse Human Preferences 中，就通过在潜在空间中对奖励学习进行正则化和预测修正，并施加强分布约束，来抑制偏好不一致问题
构建能够持续学习、不断适应偏好变化的系统，通过持续的反馈回路，使 RL 系统即便在用户偏好演化时也能保持对齐。例如，可以设计用户界面和遥测数据采集流程，以便匿名收集用户活动与反馈，用来更新奖励建模所需的数据，从而在用户偏好发生变化时，对奖励模型进行再训练或微调
使用能够基于新输入动态更新的模型，让 RL 系统保持灵活性，并对用户偏好的变化作出响应

除了这些与训练过程本身相关的问题之外，还存在一些更偏伦理层面的议题，例如：

匿名化：确保人类反馈经过匿名处理
赋权反馈提供者：让提供反馈的人有足够控制权，能够修改其偏好
数据使用透明性：明确告知反馈数据会如何被使用，并对从收集到处理再到消费的全过程建立适当的日志记录与可追溯性
偏差：如果数据不够多样，人类偏好本身就可能带有偏见与不公平性

匿名化

对人类反馈进行匿名化，是确保反馈提供者隐私与机密性的关键过程。匿名化的目标，是通过移除任何能够直接或间接识别个人的信息，将个人数据转变为“非个人数据”。

与假名化（pseudonymization）只处理直接识别风险不同，匿名化会同时考虑直接和间接识别风险。匿名化的目标，是尽可能降低重新识别个体的风险，并保护个人身份。这里的难点在于：如何在数据效用与隐私保护之间取得平衡。

匿名化决策框架（Anonymization Decision-Making Framework, ADF）旨在确保这些反馈可以在不损害隐私的前提下被共享或分析。ADF 涉及以下几个维度：

技术：如何在保留数据效用的前提下转换数据
法律：如何遵守数据保护法律，例如 GDPR
伦理：如何在隐私与效用之间取得平衡
政策：如何与组织内部政策和指导方针对齐

ADF 同时也必须面对一些挑战：

效用 vs 隐私：如何拿捏平衡
上下文依赖性：匿名化效果会因使用场景不同而变化
新型风险：随着重识别技术进步，必须持续保持警惕

以下是一些常见的匿名化技术：

聚合（Aggregation）：把数据按组汇总，降低粒度
泛化（Generalization）：将具体值替换为区间，例如年龄段
随机化（Randomization）：引入噪声或扰动
掩码（Masking）：隐藏某些属性，例如对图像中的人脸打码

总之，匿名化是一个涉及技术、法律、伦理与政策多个维度的复合过程。它让反馈提供者能够更坦诚地提供反馈，同时也能保障其隐私安全。

赋权反馈提供者

赋予反馈提供者更多对反馈过程的控制权，可以提升他们的满意度、信任感和参与度，进而提高反馈质量。在反馈提供者本身就是 AI 产品终端用户的场景中，这还会进一步提升产品满意度与用户信任。

反馈提供者控制权的一些例子，与我们日常在线产品中的用户控制机制很相似：

偏好设置：用户可以调整通知偏好、语言设置、隐私选项等
退出机制：用户可以选择不参与某些功能，例如数据采集或问卷调查
个性化定制：允许用户定制自己的体验，例如主题、布局等，从而增加反馈信号的细粒度

有些控制方式未必一定是用户自己直接操作，也可能是基于组织政策或安全机制来实现。例如：

授权：只有拥有相应权限的用户，才能修改某些设置
认证：确认用户身份，防止未经授权的变更
访问控制：限制哪些人有权修改偏好设置

数据使用透明性

除了通过设计用户控制机制来赋权反馈提供者之外，清楚说明数据将如何被使用，也能帮助与 AI 交互的人作出更合理的决策，从而在帮助 RL 训练的同时，减少隐私顾虑并增强信任。

在 UI 设计中，可以通过以下方式提升透明度：

清晰通知：显著展示数据收集提示，例如弹窗、横幅
设置页：提供专门的隐私设置入口
同意流程：针对特定用途获取用户的明确同意

某些地区对数据使用透明性有强制性合规要求，例如：

GDPR（通用数据保护条例）
CCPA（加州消费者隐私法）

偏差与不公平

虽然人类本身在提供反馈时就可能带有偏见，但从反馈数据的收集、预处理到使用全过程，也都需要引入偏差防控机制。

数据收集阶段的去偏技术

数据收集过程本身就可能成为偏差来源。例如，如果数据只来自数量有限且类型相似的来源，那么即便数据量很大，也仍然会带有偏差。以下是一些有助于减少偏差的技术：

多样化数据来源：偏好数据应来自不同的人群、不同情境、不同人口统计特征、不同背景与不同经验，并覆盖不同时间点。这有助于让偏好更能代表广泛人群，减少某一类群体偏差的影响。
平衡采样：有意识地对代表不足的群体进行采样，可以帮助减少偏差，例如在采集阶段设置配额，或引入加权方法。
盲化技术：在数据收集时屏蔽那些已知会引发决策偏差的信号。例如，在某些场景下，如果已知种族、性别或年龄等信息会引入偏见，就可以在让人类做判断时移除这些身份信息。

数据预处理阶段的技术

即便你已经优化了数据收集过程，偏差仍然可能存在，或已经在历史数据中被引入。因此，在数据预处理阶段识别并缓解偏差，也同样重要。常见做法包括：

检测偏差：使用统计检验或公平性指标来识别收集数据中的潜在偏差。例如，使用异常检测，或检查偏好与人口统计变量之间的相关性。一旦发现偏差，就可以考虑移除相关数据点，或调整它们的权重。
数据增强：人为生成额外偏好数据，以弥补某些类别中的不平衡或代表不足。方法可能包括数据镜像（如对已有样本做翻转）或基于现有偏好合成数据。这一过程也可以发生在奖励模型构建阶段。更详细的讨论可见 Aligning Large Multimodel Models with Factually Augmented RLHF。

算法层面的技术

除了在预处理阶段处理偏差，也可以在训练阶段通过算法和学习框架来减轻偏差。常见做法包括：

去偏算法：使用特定算法，在学习过程中降低带偏差偏好的影响，或调整奖励函数来抵消偏差。例如，奖励模型通常会偏向更长的输出。为使训练更贴近人类意图，Loose lips sink ships 一文使用了一种称为 Product-of-Experts 的集成方法，以识别并缓解长度偏差。
公平性感知学习框架：在学习过程中引入公平性约束。例如，模型若做出偏向某些群体的决策，则对其加以惩罚；或者要求模型输出在不同人口群体上达到统计公平。相关例子可见 SimFair: Physics-Guided Fairness-Aware Learning with Simulation Models。

人类反馈校准

偏差不仅会出现在数据收集、预处理和算法阶段，也可能源于人类本身的服从性偏差或认知偏差。为了减少这种由人类输入及其固有认知模式带来的偏差，校准往往是必要的：

校准后的标注：训练标注者识别常见认知偏差，并提供清晰指南，帮助其在偏好选择时尽量减少偏差影响。这可能包括标准化培训流程，或明确的评估准则。
主动学习：当模型对某些数据点最不确定，或怀疑某些数据点存在偏差时，主动向标注者请求反馈。这能把人类反馈集中到最有可能减少偏差的区域上。

这些关于数据偏差、人类偏差以及数据监管合规要求的挑战与缓解技术，都是非常必要的指导原则与实践示例。除此之外，不同地区还可能存在本地化要求，不同应用也会有其特定的数据与人类反馈要求，这些通常需要结合领域专家共同处理。

总结

在本章中，我们讨论了 RLHF 的作用，以及它如何提升学习效率。我们也学习了：什么叫把人类专业知识纳入 RL 训练，以及具体是如何实现的。随后，我们又讨论了 RL 中各种类型的人类反馈、将人类偏好纳入 RL 的具体流程细节，以及 RLHF 在真实世界应用中的挑战。

基于这些理解，在下一章中，我们将进一步讨论：如何基于人类反馈数据构建奖励模型。

参考资料

A Survey of Inverse Reinforcement Learning: Challenges, Methods and Progress
An Algorithmic Perspective on Imitation Learning
CS 285
Learning from human-generated reward
TAMER: Training an Agent Manually via Evaluative Reinforcement
A General Language Assistant as a Laboratory for Alignment
Reward-rational (implicit) choice: A unifying formalism for reward learning
A Survey of Preference-Based Reinforcement Learning Methods
Deep Reinforcement Learning from Human Preferences
A Survey of Reinforcement Learning from Human Feedback
Semi-supervised reinforcement learning, by Paul Christiano
Reinforcement Learning from Diverse Human Preferences
A Best Practice Approach to Anonymization
The Impact of Implicit Bias on Data Diversity
SimFair: Physics-Guided Fairness-Aware Learning with Simulation Models
Aligning Large Multimodel Models with Factually Augmented RLHF
Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback
ODI 数据匿名化指南
Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization
Generative Adversarial Imitation Learning

这一章内容也比较长，我已经先按“贴近原文精译”方式完整处理好了。接下来我可以继续帮你做其中一种整理：把它改成更适合教材的中文表达，或者提炼成适合做 PPT 的讲义版。