微软新范式:让大模型“想得多、说得准”,事实性最高提升13%

0 阅读1分钟

大语言模型(LLM)在处理复杂推理任务时已展现出强大能力,但一个顽固的“幻觉”问题始终是其通往现实世界应用道路上的巨大阻碍。 尤其在需要生成长篇幅回答时,模型内部微小的错误会像滚雪球一样不断累积,最终导致输出结果看似合理,实则充斥着事实谬误。 这种“一本正经地胡说八道”的现象,极大地限制了模型在金融、医疗、法律等高可靠性场景中的部署。

ArXiv URL:arxiv.org/abs/2605.01…

为了提升模型回答的事实性,现有方法主要分为两类:一是让模型在不确定时选择“拒绝回答”(abstention);二是通过监督微调或强化学习等方式直接优化事实性。然而,这些方法都遵循一种“探索-承诺耦合”(coupled exploration-commitment)的模式。 这意味着,模型在生成答案过程中的中间推理步骤(探索),会被无条件地、全盘接纳并整合进最终的输出(承诺)中。这种机制缺乏对信息进行精细化筛选和整合的能力,导致即使模型在推理过程中产生了部分正确、部分错误的思考,也无法有效过滤掉错误信息,最终仍会将幻觉传播到答案里。

针对这一核心困境,来自微软研究院和北京大学的研究者们提出了一种全新的范式——“探索-承诺分离”(Exploration-Commitment Decoupling)。 其核心思想是:将模型的知识探索过程与最终的答案生成过程解耦。模型应当被允许在内部进行广泛的思考和推理(探索),但在给出最终答案时,则应保持谨慎,只采纳那些它有高度把握的可靠信息(承诺)。

为了将这一范式落地,研究者们设计了一个名为**校准感知生成(Calibration-Aware Generation, CAG)**的框架。 该框架通过两大互补机制,赋予模型端到端的、感知自身可靠性的生成能力:

  1. 校准感知的探索(Calibrated Exploration):让模型“知道自己知道什么”。在推理时,模型不仅生成思考步骤,还会为每一步附上一个校准过的可靠性评估(例如,<reliable><unreliable>)。

  2. 选择性的承诺(Selective Commitment):让模型“只说自己知道的话”。在探索完成后,模型依据前一步生成的可靠性信号,选择性地保留可靠内容,并抑制不可靠信息,从而构建出最终答案。

实验结果表明,在五个长篇事实性基准测试中,CAG 框架让不同模型家族的事实性最多提升了 13%,同时由于抑制了冗余和错误的输出,还将解码时间最多减少了 37%。 这项工作为构建更值得信赖、更具自我意识的生成式 AI 系统指明了新的方向。

“探索”与“承诺”的耦合:长文生成幻觉的根源

当前大模型生成长文本的过程,可以类比为一名学生在草稿纸上解题。在“探索”阶段,学生会尝试多种思路,列出不同的计算步骤,其中一些是正确的,另一些则是错误的尝试。而现有的“探索-COMMITMENT耦合”范式,就像是要求这名学生将草稿纸上的所有内容——包括正确的、错误的、划掉重来的——原封不动地抄录到最终的答题卡上。 这种模式显然是有问题的。

标准生成范式与“探索-承诺分离”范式的对比

上图直观地展示了两种范式的区别。 左侧的标准生成流程中,中间的思考过程被一股脑地塞进最终答案,导致幻觉的产生。而右侧的“探索-承诺分离”范式则引入了校准和选择机制,模型能够评估每一步思考的可靠性,并只将可信赖的信息纳入最终答案。

为了解决这个问题,研究者们提出的新范式主张将“探索”与“承诺”解耦。模型依然可以像以前一样自由地进行推理探索,以保持其解决问题的广度与效用。但与此同时,它需要学会对自己的每一步思考进行“自我评估”,并在最终输出时变得“保守”,只采纳那些经过评估、确认可靠的内容。这使得模型能够在“大胆假设”的同时,做到“小心求证”,从而在不牺牲有用信息的前提下,最大程度地降低产生幻觉的风险。

CAG 框架:如何实现“知行合一”的校准感知生成

为了实现“探索-承诺分离”这一构想,研究团队设计了校准感知生成(CAG)框架,其核心在于通过一个精巧的结构化监督方案,让模型同时学会“校准探索”和“选择性承诺”两种能力。

第一步:校准感知的探索——教会模型“自知之明”

首先,要让模型学会在思考时评估自身言论的可靠性。研究者们采用了一种名为 Calibration-Aware Structured Supervision (CASS) 的训练方法。具体流程如下:

  1. 生成原始数据:让基础模型针对一系列问题,生成包含中间推理步骤和最终答案的完整文本。

  2. 标注可靠性:利用一个名为 VeriScore 的自动化评估工具,对生成内容中的每一个推理步骤进行事实性打分。VeriScore 会将一个推理步骤分解为多个原子性的声明,然后通过搜索引擎检索外部证据来验证每个声明的真实性。一个推理步骤的事实性分数,就是其中被证据支持的声明所占的比例。

  3. 离散化标签:将连续的事实性分数根据一个预设的阈值 τ\tau 转化为离散的、语义化的标签,比如分数高于 τ\tau 的标记为 <reliable>(可靠),低于则标记为 <unreliable>(不可靠)。研究者指出,使用离散的语义标签(如 <reliable>)而非连续的数值,更符合语言模型的学习范式,有助于模型更有效地学习事实性感知能力。

通过这个过程,就为模型的每一个思考步骤都打上了“可靠”或“不可靠”的标签,为接下来的训练提供了清晰的监督信号。

第二步:选择性的承诺——只说有把握的话

在教会模型评估自身思考之后,下一步是教会它如何根据这些评估来构建最终答案。研究者们巧妙地利用了一个更强大的“教师模型”(如 GPT-5)来生成这部分的训练数据。

他们向 GPT-5 提供原始问题、带有可靠性标签的推理链,以及模型最初生成的答案,并指示 GPT-5 对原始答案进行修改,要求修改后的新答案 y~\tilde{y} 必须只依赖于那些被标记为 <reliable> 的推理步骤。来自不可靠步骤的内容要么被删除,要么被弱化。

研究者对这一“答案投影”过程进行了质量检查,发现经过 GPT-5 修正后的答案,其事实性分数从 67.79% 显著提升至 79.80%,同时 96% 的新答案内容完全来自于原始的可靠推理和答案,并未引入外部新知识。这证明了该方法能有效滤除错误信息,同时保持内容的忠实性。

最终,模型在由 (原始问题, (带标签的推理链, 修正后的答案)) 组成的数据集上进行训练。其损失函数包含两部分:一部分鼓励模型生成带有准确可靠性标签的推理链(学会“自知”),另一部分则鼓励模型生成与修正后答案一致的最终输出(学会“慎言”)。

第三步:策略蒸馏——让小模型也能“学得会”

对于参数规模较小的模型,直接通过 CASS 学习可能较为困难。为此,研究者还引入了**校准感知策略蒸馏(Calibration-Aware Policy Distillation, CAPD)**作为补充。

该方法采用“在线蒸馏”的思路,让一个较弱的学生模型先自行生成带标签的推理和答案,然后由一个更强的教师模型(如 Llama-3.1-8B 或 Qwen3-14B)对学生模型的输出进行逐个词元(token)的指导和修正。这种方式能让学生模型直面自己在推理时可能犯的错误(如错误的可靠性判断),并从教师的纠正中高效学习,从而进一步提升其校准和生成能力。

实验结果:事实性与效率的双重提升

研究者在 Llama 和 Qwen 两大系列共 5 个不同尺寸的模型上,以及 AlpacaFact、Biography 等五个长文事实性基准测试集上进行了广泛实验。

主要结果显示,仅使用 CASS 训练的模型,其事实性得分就已全面超越所有基线方法(包括拒绝回答和基于强化学习的方法)。例如,Llama-3.1-8B 模型在 CASS 的加持下,VeriScore 从 61.51 提升至 71.79,实现了超过 10 个点的巨大增益。 值得注意的是,这些提升完全来自于模型内部更好的校准和生成策略,没有在推理时引入任何外部工具或知识。

对于较小的模型,如 Llama-3.2-3B 和 Qwen3-4B/8B,在经过 CAPD 策略蒸馏后,性能获得了进一步的提升,证明了该方法的有效性。

除了事实性的提升,CAG 框架还带来了显著的效率增益。通过主动抑制不可靠内容的生成,模型输出的文本变得更加精炼,从而将解码时间最多减少了 37%。 这一“副作用”对于实际应用而言具有极高的价值。

消融实验进一步证实了框架设计的合理性。如果移除“校准探索”或“选择性承诺”中的任何一个环节,模型的性能都会出现明显下降,这表明两个组件对于实现最终的优异效果缺一不可。

广泛的通用性与深层机制探究

CAG 框架的能力并不仅限于特定的长文生成任务。研究者进一步测试了它在更广泛场景下的泛化能力,包括知识密集型问答(PopQA, GPQA)和开放式聊天(Vicuna QA)。

CAG 在不同问答与聊天基准上的泛化表现

CAG 在不同问答与聊天基准上的泛化表现

CAG 在不同问答与聊天基准上的泛化表现

如上图所示,无论是在需要精确知识回忆和组织的问答任务中,还是在评估流畅性、连贯性和准确性的聊天场景里,经过 CASS 和 CAPD 训练的模型都稳定地优于基线方法。 这表明,CAG 赋予模型的校准能力是一种通用的、可迁移的元技能。

此外,该框架还能与检索增强生成(RAG)等技术兼容,进一步提升在需要外部知识时的表现。这都证明了“探索-承诺分离”作为一个顶层设计范式的普适性和强大潜力。

总结

面对大模型在长文本生成中难以根除的幻觉问题,微软研究院与北京大学的这项工作另辟蹊径,从生成过程的内在机制入手,提出了“探索-承诺分离”这一极具洞察力的新范式。 其具体的实现框架 CAG,通过教会模型“知道自己知道什么”并“只说自己知道的话”,在不依赖外部工具的情况下,显著提升了生成内容的事实性,并附带提高了生成效率。

这项研究的价值不仅在于提供了一个立即可用的技术方案,更在于它为我们思考如何构建更可靠、更可信的 AI 系统提供了一个全新的视角。未来的大模型,或许不仅需要拥有渊博的知识,更需要具备清醒的自我认知——知道自己知识的边界在哪里。而这,正是通往真正值得信赖的通用人工智能的关键一步。微软新范式:让大模型“想得多、说得准”,事实性最高提升13%