纠正大模型的“废话偏见”:阿里提出TCER,无需外部裁判即可自我优化

0 阅读1分钟

大语言模型的对齐(Alignment)技术,尤其是经过监督微调(SFT)之后的强化学习(Reinforcement Learning, RL),已成为提升模型能力、使其行为更符合人类期望的关键步骤。然而,当我们将这套在数学推理、代码生成等领域大放异彩的范式迁移到开放式的创意写作任务时,一个核心的瓶颈便显现出来:我们缺少一个客观、廉价且可规模化的“裁判”。

ArXiv URL:arxiv.org/abs/2604.11…

不同于数学题有标准答案,文章写得好不好,本身是一个主观、多维度且充满模糊性的问题。目前的解决方案通常依赖两类“裁判”:一是动用像 GPT-4 这样强大的闭源模型进行打分,但这会带来高昂的 API 调用成本;二是训练一个专门的奖励模型(Reward Model),但这又需要大量昂贵且难以保持一致性的人工标注偏好数据。

为了摆脱这种对外部裁判的依赖,研究者们将目光投向了数学推理领域的一种“内生奖励”(Endogenous Reward)机制——让模型用自己的“自信心”(即输出Token的概率)作为奖励信号来指导自我优化。这个思路很巧妙,但在写作任务上直接应用时,却会迅速掉入一个名为“平庸偏见”(Triviality Bias)的陷阱:模型为了追求更高的自信心(奖励),会倾向于生成那些最高频、最安全、最没有信息量的“废话”,导致内容多样性锐减,文章变得索然无味。

为了解决这一困境,来自阿里巴巴、兰州大学和北京大学的研究者们提出了 TCERTriviality Corrected Endogenous Reward,平庸偏见修正的内生奖励)机制。该方法的核心思想是,奖励信号不应只看模型自身的自信程度,更要看它相比于一个“通用版”的自己,在特定领域知识上实现了多大的“信息增益”。同时,通过一个精巧的概率依赖校正机制,主动抑制对那些高概率“废话”的奖励,从而鼓励模型在保持领域风格的同时,进行更具创造性的探索。实验证明,无论是在多种写作基准测试还是不同的模型架构上,TCER 都能在无需任何外部监督的情况下实现持续的性能提升,甚至还能有效迁移到数学推理任务,展示了其方法的普适性。

内生奖励的困境:从自信到“废话文学”

强化学习的目标是优化一个策略 π\pi,使其在与环境交互时获得最大化的累积奖励。在文本生成中,这个策略就是大模型本身。当我们缺乏外部奖励时,一个自然的想法是利用模型自身的输出来构建奖励信号。

近期,有研究从逆向强化学习(Inverse Reinforcement Learning, IRL)的视角为这种“内生奖励”提供了理论支撑。IRL 认为,一个最优策略可以表示为与奖励函数相关的玻尔兹曼分布形式:π(yx)exp(Q(x,y)/α)\pi^*(y|x) \propto \exp(Q^*(x,y)/\alpha)。这意味着,模型的对数概率 logπ(ys)\log\pi(y|s) 本身就可以被看作是一种隐式的奖励信号。因此,最简单的内生奖励(EndoR)可以直接定义为:

re(yisi)=logπs(yisi)r_e(y_i|s_i) = \log\pi_s(y_i|s_i)

其中,πs\pi_s 是在特定领域数据上微调过的“专家策略”,sis_i 是当前上下文,yiy_i 是生成的下一个 Token。这个奖励机制的目标是最大化模型对自己生成内容的期望对数概率。

然而,这个看似合理的目标函数隐藏着一个致命缺陷。当模型试图最大化 logπs(ys)\log\pi_s(y|s) 时,其最优解会退化为一个确定性策略,即在每一步都贪婪地选择概率最高的那个 Token:

π(s)=δ(y=argmaxvVπs(vs))\pi^*(\cdot|s) = \delta\left(y = \arg\max_{v \in \mathcal{V}} \pi_s(v|s)\right)

在数学推理中,这或许问题不大,因为正确的解题路径往往对应着一条高概率的 Token 序列。但在开放式写作中,概率最高的词元通常是那些最常见、最通用的连接词或陈词滥调。持续优化这样的奖励,会让模型陷入“舒适区”,不断生成“今天天气很好”“众所周知”这类高频但低信息量的句子,最终导致文本质量的“熵塌陷”——多样性消失,内容变得极其平庸。这便是“平庸偏见”的根源。

Refer to caption

图 1: TCER 与简单内生奖励(EndoR)的对比。EndoR 倾向于奖励高概率的平庸内容,而 TCER 通过结合基础模型和专家模型的信息,更侧重于高熵、有意义的内容。经过强化学习训练后,TCER(橙线)的熵衰减更平缓,显示出更强的探索能力。

TCER 的解法:信息增益与平庸修正

要打破“平庸偏见”,就不能单纯奖励自信,而是要奖励“有价值的自信”。TCER 的设计正是基于这一理念,它通过一个信息论的分解和巧妙的加权机制,重新定义了奖励的内涵。

1. 信息增益:奖励“专家”区别于“通才”的知识

TCER 的第一步是引入一个参照物。它定义了两个策略:一个是通用的基础模型策略 πb\pi_b(Generalist),另一个是在高质量领域数据上微调过的专家策略 πs\pi_s(Specialist)。专家策略 πs\pi_s 的概率可以被分解为基础概率和信息增益两部分:

logπs(yisi)=logπb(yisi)+logπs(yisi)πb(yisi)\log\pi_s(y_i|s_i) = \log\pi_b(y_i|s_i) + \log\frac{\pi_s(y_i|s_i)}{\pi_b(y_i|s_i)}

等式右边的第二项,ϕ(yisi)=logπs(yisi)πb(yisi)\phi(y_i|s_i) = \log\frac{\pi_s(y_i|s_i)}{\pi_b(y_i|s_i)},被定义为“特定信息增益”(Specific Information Gain)。它衡量的不是一个 Token 出现的绝对概率,而是专家模型选择这个 Token 的意愿相对于通用模型提升了多少。

这个指标非常关键。如果一个词(比如“的”)在通用语料和专业写作语料中都极其常见,那么 πs\pi_sπb\pi_b 对它的预测概率可能都很高,导致 ϕ\phi 的值接近于零。相反,如果一个词(比如某个专业术语或一种独特的文学表达)在专家模型中的概率远高于通用模型,ϕ\phi 就会是一个较大的正数。因此,用 ϕ\phi 作为奖励,能够引导模型学习那些真正体现领域专业性和风格的表达,而不是通用的口水话。

2. 平庸修正:给高概率“废话”踩下刹车

仅仅使用信息增益 ϕ\phi 还不够,因为它仍然可能偏爱那些专家模型“非常确定”的领域词汇,从而再次抑制多样性。TCER 的点睛之笔在于引入了一个“平庸修正”权重 w(yisi)w(y_i|s_i),它与专家模型的自信心 πs\pi_s 直接挂钩:

w(yisi)=(1πs(yisi))λw(y_i|s_i) = (1 - \pi_s(y_i|s_i))^\lambda

这里的 λ\lambda 是一个超参数。这个权重项的特性是:当专家模型对某个 Token 的预测概率 πs\pi_s 趋近于 1 时,权重 ww 会趋近于 0。这意味着,即使某个 Token 具有很高的信息增益 ϕ\phi,但如果它同时也是一个高概率的、几乎是板上钉钉的选择,那么修正权重就会把这部分奖励“清零”。

这个机制就像一个动态的刹车系统。它告诉模型:“不要总是选择那些你最确信无疑的词,即便它们是领域相关的。去关注那些你认为有价值(高 ϕ\phi),但又不那么确定(中低 πs\pi_s)的选项,那里才隐藏着创造力的火花。”

3. 最终的 TCER 奖励函数

结合上述两点,最终的 TCER 奖励函数被定义为:

rt(yisi)=logπs(yisi)+kw(yisi)ϕ(yisi)r_t(y_i|s_i) = \log\pi_s(y_i|s_i) + k \cdot w(y_i|s_i) \cdot \phi(y_i|s_i)

其中,kk 是一个平衡系数。这个公式的第一项保留了基础的内生奖励,确保流畅性;第二项则是 TCER 的核心——经过“平庸修正”加权后的“信息增益”。整个训练流程如下图所示,模型首先通过 SFT 得到专家策略 πs\pi_s,然后在强化学习阶段使用 TCER 奖励和 GRPO(Group Relative Policy Optimization)算法进行优化。

Refer to caption

图 2: TCER 训练流程与奖励对比。(a) 展示了从 SFT 获取专家策略 πs\pi_s,再到使用 TCER 奖励进行强化学习的完整工作流。(b) 可视化了单个句子中,TCER 和 EndoR 在句子层面上的平均奖励差异,TCER 明显倾向于奖励更有意义的句子部分。

实验效果:全方位、跨模型的显著提升

TCER 的有效性在一系列严格的实验中得到了验证。研究者们基于 Qwen2.5-7B-Instruct、Llama-3.1-8B-Instruct 等多个主流开源模型,在 LongWriter 和 DeepWriting 等高质量写作数据集上进行了训练和评测。

主要写作任务表现

在 LongBench-Write、HelloBench 和 WritingBench 等多个写作评测基准上,TCER 的表现始终优于所有基线模型。从下表的 Qwen2.5-7B 实验结果可以看出,相较于原始模型,仅经过 SFT 就能带来显著提升。在其基础上,使用简单的内生奖励(RL-EndoR)能获得一些改进,但效果不稳定。而采用 TCER 进行强化学习后,模型在所有指标上都达到了最高分,证明了其在提升写作质量上的稳定性和有效性。

Table 1: 在多个写作基准上的性能对比。从 Qwen2.5-7B-Instruct 出发,SFT、RL-EndoR 和 RL-TCER 每一个阶段都带来了性能的逐步提升,其中 TCER 效果最为突出。

跨模型与跨数据集的泛化能力

为了证明 TCER 不是某个特定模型的“特效药”,研究者在 Llama-3.1、Qwen2.5 和 Qwen3 等不同架构的模型上重复了实验流程。如下图所示,无论是在哪个模型上、使用哪个数据集进行训练,橙色条代表的 TCER 方法总是能取得最优性能,稳定超越 SFT 基线(浅蓝)和简单的内生奖励(深蓝)。这表明 TCER 是一种与模型架构无关的、具有普适性的增强技术。

Refer to caption

图 3: 跨不同模型和数据集的性能泛化。图中清晰展示,对于每一个模型配置,TCER(橙色)的表现都一致性地优于基础模型、SFT 模型和 EndoR 模型。

意外之喜:在数学推理任务上的泛化

更有趣的是,这个为解决创意写作“平庸偏见”而设计的方法,竟然也能很好地迁移到逻辑严谨的数学推理任务上。研究者将 TCER 应用于数学问题求解,结果显示,TCER 同样超越了 SFT 和 EndoR 基线。这背后的解释可能是,通过惩罚那些高概率的、显而易见的推理步骤,TCER 鼓励模型去探索更多样的、不那么常规的解题路径,从而增加了找到正确答案的可能性。这一发现雄辩地证明了 TCER 所抓住的“反平庸”原则具有跨领域的通用价值。

Table 3: 在数学推理基准上的性能对比。无论是在 Qwen 还是 Llama 模型上,TCER 的表现都优于 SFT 基线和简单的 EndoR 方法。

奖励信号的质量验证

TCER 真的在奖励“高质量”内容吗?为了直观验证这一点,研究者进行了一项分析。他们让 SFT 模型生成一批文本,然后使用 Gemini 2.5 Pro、Claude-Opus4 和 GPT-4o 等多个 LLM 作为“裁判团”,共同标注出其中质量最高的句子。随后,他们计算了每个句子的 TCER 奖励和 EndoR 奖励。如下图所示,被裁判团标记为高质量的句子(红色粗点),其 TCER 奖励分数(橙线)普遍处于峰值区域,而 EndoR 奖励(蓝线)与高质量句子的对应关系则不那么明确。这直观地证明了 TCER 的奖励信号确实与人类(或高级 LLM)的审美判断更加一致。

Refer to caption

图 4: 奖励轨迹与高质量句子的对齐分析。图中红色粗点代表经由 LLM 裁判团识别出的高质量句子。可以观察到,TCER 奖励(橙线)的峰值与这些高质量点高度重合。

总结与展望

TCER 的提出,为解决开放式文本生成的强化学习奖励瓶颈提供了一个极具吸引力的方案。它巧妙地将内生奖励从单纯的“自信度”升级为对“领域内信息增益”的度量,并通过一个创新的“平庸修正”机制,有效抑制了模型滑向低熵、低质量输出的“平庸偏见”。

这项工作的核心贡献在于,它展示了一条无需依赖昂贵的人工标注或闭源 API,即可实现大模型在写作等创造性任务上进行自我优化的可行路径。通过在多个模型和任务上的成功验证,TCER 证明了其作为一种通用微调技术的巨大潜力。

当然,该方法也存在一些局限。作为一种自监督方法,其性能上限终究受限于模型自身已有的知识。此外,其实验评估在一定程度上仍依赖于 LLM 作为裁判,这本身也可能引入偏见。但无论如何,TCER 为我们探索更低成本、更可扩展的大模型对齐技术开辟了新的思路,也让我们看到了大模型“自我进化”的更多可能性。好的,我将以一位资深技术作者的身份,为你解读这篇关于大模型强化学习的论文。


纠正大模型的“废话偏见”:阿里提出TCER,无需外部裁判即可自我优化