微软新范式：让大模型“想得多、说得准”，事实性最高提升13%大语言模型（LLM）在处理复杂推理任务时已展现出强大能力，但

大语言模型（LLM）在处理复杂推理任务时已展现出强大能力，但一个顽固的“幻觉”问题始终是其通往现实世界应用道路上的巨大阻碍。尤其在需要生成长篇幅回答时，模型内部微小的错误会像滚雪球一样不断累积，最终导致输出结果看似合理，实则充斥着事实谬误。这种“一本正经地胡说八道”的现象，极大地限制了模型在金融、医疗、法律等高可靠性场景中的部署。

ArXiv URL：arxiv.org/abs/2605.01…

为了提升模型回答的事实性，现有方法主要分为两类：一是让模型在不确定时选择“拒绝回答”（abstention）；二是通过监督微调或强化学习等方式直接优化事实性。然而，这些方法都遵循一种“探索-承诺耦合”（coupled exploration-commitment）的模式。这意味着，模型在生成答案过程中的中间推理步骤（探索），会被无条件地、全盘接纳并整合进最终的输出（承诺）中。这种机制缺乏对信息进行精细化筛选和整合的能力，导致即使模型在推理过程中产生了部分正确、部分错误的思考，也无法有效过滤掉错误信息，最终仍会将幻觉传播到答案里。

针对这一核心困境，来自微软研究院和北京大学的研究者们提出了一种全新的范式——“探索-承诺分离”（Exploration-Commitment Decoupling）。其核心思想是：将模型的知识探索过程与最终的答案生成过程解耦。模型应当被允许在内部进行广泛的思考和推理（探索），但在给出最终答案时，则应保持谨慎，只采纳那些它有高度把握的可靠信息（承诺）。

为了将这一范式落地，研究者们设计了一个名为**校准感知生成（Calibration-Aware Generation, CAG）**的框架。该框架通过两大互补机制，赋予模型端到端的、感知自身可靠性的生成能力：

校准感知的探索（Calibrated Exploration）：让模型“知道自己知道什么”。在推理时，模型不仅生成思考步骤，还会为每一步附上一个校准过的可靠性评估（例如，<reliable> 或 <unreliable>）。
选择性的承诺（Selective Commitment）：让模型“只说自己知道的话”。在探索完成后，模型依据前一步生成的可靠性信号，选择性地保留可靠内容，并抑制不可靠信息，从而构建出最终答案。

实验结果表明，在五个长篇事实性基准测试中，CAG 框架让不同模型家族的事实性最多提升了 13%，同时由于抑制了冗余和错误的输出，还将解码时间最多减少了 37%。这项工作为构建更值得信赖、更具自我意识的生成式 AI 系统指明了新的方向。

“探索”与“承诺”的耦合：长文生成幻觉的根源

当前大模型生成长文本的过程，可以类比为一名学生在草稿纸上解题。在“探索”阶段，学生会尝试多种思路，列出不同的计算步骤，其中一些是正确的，另一些则是错误的尝试。而现有的“探索-COMMITMENT耦合”范式，就像是要求这名学生将草稿纸上的所有内容——包括正确的、错误的、划掉重来的——原封不动地抄录到最终的答题卡上。这种模式显然是有问题的。

标准生成范式与“探索-承诺分离”范式的对比

上图直观地展示了两种范式的区别。左侧的标准生成流程中，中间的思考过程被一股脑地塞进最终答案，导致幻觉的产生。而右侧的“探索-承诺分离”范式则引入了校准和选择机制，模型能够评估每一步思考的可靠性，并只将可信赖的信息纳入最终答案。

为了解决这个问题，研究者们提出的新范式主张将“探索”与“承诺”解耦。模型依然可以像以前一样自由地进行推理探索，以保持其解决问题的广度与效用。但与此同时，它需要学会对自己的每一步思考进行“自我评估”，并在最终输出时变得“保守”，只采纳那些经过评估、确认可靠的内容。这使得模型能够在“大胆假设”的同时，做到“小心求证”，从而在不牺牲有用信息的前提下，最大程度地降低产生幻觉的风险。

CAG 框架：如何实现“知行合一”的校准感知生成

为了实现“探索-承诺分离”这一构想，研究团队设计了校准感知生成（CAG）框架，其核心在于通过一个精巧的结构化监督方案，让模型同时学会“校准探索”和“选择性承诺”两种能力。

第一步：校准感知的探索——教会模型“自知之明”

首先，要让模型学会在思考时评估自身言论的可靠性。研究者们采用了一种名为 Calibration-Aware Structured Supervision (CASS) 的训练方法。具体流程如下：

生成原始数据：让基础模型针对一系列问题，生成包含中间推理步骤和最终答案的完整文本。
标注可靠性：利用一个名为 VeriScore 的自动化评估工具，对生成内容中的每一个推理步骤进行事实性打分。VeriScore 会将一个推理步骤分解为多个原子性的声明，然后通过搜索引擎检索外部证据来验证每个声明的真实性。一个推理步骤的事实性分数，就是其中被证据支持的声明所占的比例。
离散化标签：将连续的事实性分数根据一个预设的阈值 $\tau$ 转化为离散的、语义化的标签，比如分数高于 $\tau$ 的标记为 <reliable>（可靠），低于则标记为 <unreliable>（不可靠）。研究者指出，使用离散的语义标签（如 <reliable>）而非连续的数值，更符合语言模型的学习范式，有助于模型更有效地学习事实性感知能力。

通过这个过程，就为模型的每一个思考步骤都打上了“可靠”或“不可靠”的标签，为接下来的训练提供了清晰的监督信号。

第二步：选择性的承诺——只说有把握的话

在教会模型评估自身思考之后，下一步是教会它如何根据这些评估来构建最终答案。研究者们巧妙地利用了一个更强大的“教师模型”（如 GPT-5）来生成这部分的训练数据。

他们向 GPT-5 提供原始问题、带有可靠性标签的推理链，以及模型最初生成的答案，并指示 GPT-5 对原始答案进行修改，要求修改后的新答案 $\tilde{y}$ 必须只依赖于那些被标记为 <reliable> 的推理步骤。来自不可靠步骤的内容要么被删除，要么被弱化。

研究者对这一“答案投影”过程进行了质量检查，发现经过 GPT-5 修正后的答案，其事实性分数从 67.79% 显著提升至 79.80%，同时 96% 的新答案内容完全来自于原始的可靠推理和答案，并未引入外部新知识。这证明了该方法能有效滤除错误信息，同时保持内容的忠实性。

最终，模型在由 (原始问题, (带标签的推理链, 修正后的答案)) 组成的数据集上进行训练。其损失函数包含两部分：一部分鼓励模型生成带有准确可靠性标签的推理链（学会“自知”），另一部分则鼓励模型生成与修正后答案一致的最终输出（学会“慎言”）。

第三步：策略蒸馏——让小模型也能“学得会”

对于参数规模较小的模型，直接通过 CASS 学习可能较为困难。为此，研究者还引入了**校准感知策略蒸馏（Calibration-Aware Policy Distillation, CAPD）**作为补充。

该方法采用“在线蒸馏”的思路，让一个较弱的学生模型先自行生成带标签的推理和答案，然后由一个更强的教师模型（如 Llama-3.1-8B 或 Qwen3-14B）对学生模型的输出进行逐个词元（token）的指导和修正。这种方式能让学生模型直面自己在推理时可能犯的错误（如错误的可靠性判断），并从教师的纠正中高效学习，从而进一步提升其校准和生成能力。

实验结果：事实性与效率的双重提升

研究者在 Llama 和 Qwen 两大系列共 5 个不同尺寸的模型上，以及 AlpacaFact、Biography 等五个长文事实性基准测试集上进行了广泛实验。

主要结果显示，仅使用 CASS 训练的模型，其事实性得分就已全面超越所有基线方法（包括拒绝回答和基于强化学习的方法）。例如，Llama-3.1-8B 模型在 CASS 的加持下，VeriScore 从 61.51 提升至 71.79，实现了超过 10 个点的巨大增益。值得注意的是，这些提升完全来自于模型内部更好的校准和生成策略，没有在推理时引入任何外部工具或知识。

对于较小的模型，如 Llama-3.2-3B 和 Qwen3-4B/8B，在经过 CAPD 策略蒸馏后，性能获得了进一步的提升，证明了该方法的有效性。

除了事实性的提升，CAG 框架还带来了显著的效率增益。通过主动抑制不可靠内容的生成，模型输出的文本变得更加精炼，从而将解码时间最多减少了 37%。这一“副作用”对于实际应用而言具有极高的价值。

消融实验进一步证实了框架设计的合理性。如果移除“校准探索”或“选择性承诺”中的任何一个环节，模型的性能都会出现明显下降，这表明两个组件对于实现最终的优异效果缺一不可。

广泛的通用性与深层机制探究

CAG 框架的能力并不仅限于特定的长文生成任务。研究者进一步测试了它在更广泛场景下的泛化能力，包括知识密集型问答（PopQA, GPQA）和开放式聊天（Vicuna QA）。

CAG 在不同问答与聊天基准上的泛化表现

如上图所示，无论是在需要精确知识回忆和组织的问答任务中，还是在评估流畅性、连贯性和准确性的聊天场景里，经过 CASS 和 CAPD 训练的模型都稳定地优于基线方法。这表明，CAG 赋予模型的校准能力是一种通用的、可迁移的元技能。

此外，该框架还能与检索增强生成（RAG）等技术兼容，进一步提升在需要外部知识时的表现。这都证明了“探索-承诺分离”作为一个顶层设计范式的普适性和强大潜力。

总结

面对大模型在长文本生成中难以根除的幻觉问题，微软研究院与北京大学的这项工作另辟蹊径，从生成过程的内在机制入手，提出了“探索-承诺分离”这一极具洞察力的新范式。其具体的实现框架 CAG，通过教会模型“知道自己知道什么”并“只说自己知道的话”，在不依赖外部工具的情况下，显著提升了生成内容的事实性，并附带提高了生成效率。

这项研究的价值不仅在于提供了一个立即可用的技术方案，更在于它为我们思考如何构建更可靠、更可信的 AI 系统提供了一个全新的视角。未来的大模型，或许不仅需要拥有渊博的知识，更需要具备清醒的自我认知——知道自己知识的边界在哪里。而这，正是通往真正值得信赖的通用人工智能的关键一步。微软新范式：让大模型“想得多、说得准”，事实性最高提升13%