LLM 幻觉:追踪,评估和解释
在传统的自然语言生成(Natural Language Generation,NLG)任务中,幻觉现象已被广泛研究,其通常被界定为生成的内容要么毫无意义,要么偏离了所依赖的源内容。由于大语言模型(LLM)通常作为开放式系统运行,其幻觉的范围被拓展到更宽泛的层面。具体而言,LLM 中的幻觉可以分为两大类型:事实性幻觉与忠实性幻觉。事实性幻觉强调生成内容与可验证的真实世界事实之间的差异,通常表现为事实错误或虚构的信息。相较之下,忠实性幻觉则捕捉的是生成内容与用户输入之间的偏离,或生成内容内部缺乏自洽性的问题,它进一步可以细分为指令不一致(输出偏离用户原始指令)、语境不一致(输出与所提供的上下文矛盾)以及逻辑不一致(内容内部出现自相矛盾)。【AI大模型教程】
示例 1:虚构事实
Prompt:
Who is the current President of France in 2025?
Hallucinated Output:
The current President of France is François Hollande.
(错误:2025 年法国总统是 Emmanuel Macron,而 François Hollande 已经卸任多年。)
示例2: 语境不一致
Prompt:
I am at a concert. I see a bass. Is it a fish? Answer in yes or no:
Hallucinated Output:
Yes, bass is type of fish
(错误:在“concert(音乐会)”这个场景下,bass 显然指的是 低音吉他/低音乐器,而不是鱼类。)
鉴于幻觉输出可能带来的危害,University of Aberdeen的 Gagan Bhatia等人在其研究 Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models
(arxiv.org/abs/2510.06… Semantics Tracing, DST)框架。该框架通过整合因果路径追踪、表征干预、子序列回溯以及层级语义网络构建等机制可解释性方法,系统地揭示了幻觉的成因,并针对三个核心问题展开研究:如何可靠地追踪导致幻觉的内部语义失效,幻觉在模型的计算过程中究竟在哪一网络层变得不可避免,以及幻觉背后所对应的内部机制成因究竟是什么。
1. 针对“如何可靠地追踪导致幻觉的内部语义失效”这一问题,作者提出了 DST(Distributional Semantics Tracing)框架。提出这一框架的必要性在于,现有的可解释性方法虽然各自具有一定优势,但整体上视角零散、不完整,难以系统性地揭示幻觉的形成机制。以往研究主要有两条路径:一类是传统的可解释人工智能(XAI)方法,如 LIME 和 SHAP,它们依靠对输入和输出的扰动来统计相关性,以推测模型的决策依据,但这类方法只能提供相关性解释,无法触及因果性与内部机制,也不能揭示模型的真实计算过程;另一类是机制可解释性(Mechanistic Interpretability, MI)方法,例如 Logit Lens、因果路径追踪(Causal Path Tracing)以及稀疏自编码器(Sparse Autoencoders, SAEs)。这类方法强调因果追踪,能够直接定位电路、特征和表示,从模型内部揭示推理过程。然而,它们仍然存在碎片化的局限:Logit Lens 可以展示预测在何时开始发生表征漂移,因果路径追踪能够识别哪些具体组件负责该漂移,而稀疏自编码器则揭示了在推理过程中哪些概念被激活。DST 的价值就在于,它将这些原本分散的 MI 工具整合在一个统一的框架中,既保留了因果分析的精确性,又具备语义解释力,从而提供了一个全景式的视角,使我们能够同时从时间维度(何时发生)、结构维度(由谁触发)和语义维度(涉及什么概念)来理解幻觉是如何逐步形成的。
DST框架通过整合concept importance, patched representations和 subsequence tracing,构建出一个语义网络,从而揭示驱动模型预测的内部概念关系。
DST框架将四类解释技术有机串联起来,从而实现对幻觉形成机制的系统性追踪。首先,在****概念重要性识别阶段,研究者利用因果路径追踪方法,确定模型内部哪些关键组件(如注意力头或 MLP 神经元)对最终输出具有决定性作用。其次,在表征漂移阶段,基于 Patching 干预技术,对这些关键组件进行实验性替换,例如将错误语境下的激活表示替换为正确语境下的表示,并观察输出是否随之改变,由此判断关键层是否发生了表征漂移以及这种漂移是否直接导致了错误输出。第三步是子序列追踪,通过 token 级别的溯源方法,将关键组件的内部状态回溯到具体的输入 token,从而明确是哪些输入词触发了幻觉路径。最后,在语义网络构建阶段,作者将前三步得到的发现——关键组件、表征漂移以及触发 token——整合成一个层级化的因果语义网络。在这一网络中,节点表示语义概念(如“树”或“汽车”),边表示概念间的因果依赖或语义转移(如“Trunk → Car”),边的权重则用于表示概念关联的强度。对于一个给定的假设 H,所有活跃路径的强度之和会直接影响词表分布中的最终概率,即模型选择某个输出 token 的可能性。基于此,作者提出了一个新的指标——分布式语义强度(Distributional Semantics Strength, DSS),用于定量衡量模型在推理过程中语境路径的连贯性。其核心思想是:设 C 为所有正确的语境路径集合,A 为所有活跃路径(包括语境路径和联想路径),每条路径的强度由其在语义网络中的边权衡量,那么 DSS 就是正确语境路径在所有活跃路径中所占强度的比例。该指标能够反映模型在推理时依赖语境逻辑的程度,从而量化幻觉风险。
一个较高的 DSS 分数(接近 1)表明模型内部的正确语境路径足够强大且占据主导地位。相反,一个较低的 DSS 分数(接近 0)则意味着语境路径薄弱。
Qwen 3 模型的一次推理失败进行逐层分析显示了幻觉生成的演化过程:从预测的起点层(绿色),到语义反转点(黄色),再到最终决断点(红色)。
-
针对“幻觉在模型计算过程中的哪个层面变得不可避免”这一问题,作者通过分析模型内部的计算轨迹,识别出一个“不可逆点”。这一点由三个关键层面共同界定:首先是预测起点层,在这里模型开始形成对某一输出的初步倾向;其次是语义反转点,即模型内部的语义表示从正确逐渐转向错误的关键时刻;最后是决断层,在这一层之后,模型基本锁定并不可逆地朝错误输出推进。作者指出,这些层面的存在意味着幻觉并非瞬时出现,而是一个逐步展开的多阶段过程,其形成具有内在的层级演化逻辑。
-
针对“产生这些失败的内部机制是什么”这一问题,作者借鉴了认知科学中的系统 1 / 系统 2 理论,并提出在大语言模型内部同样可以观察到两条功能上截然不同的计算通路:一条是联想型的“系统 1”通路,其计算快速,主要依赖强烈的统计共现关系进行推断;另一条是语境型的“系统 2”路径,计算较慢,更加审慎,负责结合输入提示进行组合性推理。现有研究为这种划分提供了理论支撑,例如前馈网络(MLP)层可被视为事实性知识的键值存储,而自注意力机制则负责动态地组合信息。基于实验结果,作者通过提出的 DSS指标对语境通路的连贯性进行了量化,并发现模型的平均 DSS 与幻觉率之间存在显著的负相关关系(ρ = -0.863)。换句话说,语境通路越弱,幻觉发生的可能性就越高。据此,作者提出了一个有力的推断:幻觉的产生往往源于快速的联想通路对缓慢的语境通路的“劫持”路径
幻觉的机制不是随机噪声,而是 System 1 (联想路径) 对 System 2 (语境路径) 的劫持 —— 当语境路径过弱时,幻觉就几乎不可避免。
作者将这种通路冲突定义为 “推理捷径劫持”(Reasoning Shortcut Hijack)。这种机制的核心观点在于,幻觉并不仅仅是数据不足或知识缺失所导致的简单问题,而是模型架构内部在计算效率与逻辑稳健性之间权衡取舍的结果。换句话说,当模型选择更快、更省计算量的联想通路时,它会牺牲掉需要更复杂推理的语境通路,从而导致幻觉的发生。
实验验证
论文的实验部分主要用于验证 DST 框架是否确实比现有的解释方法更忠实地反映了大语言模型的内部推理过程,并且能否有效捕捉幻觉的发生机制。为此,作者提出了一个名为 Faithfulness Score 的评价指标,该指标从三个维度进行综合衡量,即证据强度、逻辑一致性以及与思维链推理的对齐度,并通过人工评估进行了验证。实验所使用的数据与基准包括两个方面:其一是 Racing Thoughts Benchmark,该基准专门用于考察模型在上下文推理中的细粒度能力,其挑战在于要求跨句子、跨概念地建模关系,而不仅仅依赖单一词汇的联想,因此可以很好地测试不同解释方法是否能够捕捉到细微的上下文失败;其二是 HALoGEN Benchmark,这是一个覆盖范围更广的幻觉评测集,包含了多种幻觉类型,如知识性错误、错误前提、语境不一致以及抽象推理失败。作者在两个不同规模的 Gemma2 模型(分别为 2B 和 9B 参数量)上进行了测试。实验结果表明,DST 在两个基准和不同规模的模型上都持续显著优于传统方法和其他机制可解释性方法,尤其在抽象推理类任务中表现出最突出的优势。
值得进一步思考的是,大模型的计算过程是否不仅仅限于这两条粗粒度的通路?在庞大的网络结构中,例如不同类型的注意力头或特定深层 MLP 单元,可能在某些任务中展现出介于统计联想与语境推理之间的混合特性。如果这种多样性被系统化地识别出来,那么对幻觉的量化和解释是否会更加准确。此外,本研究揭示了现有大模型中快速通路对慢速通路“劫持”的不可避免性,而这种现象并非单纯的数据或知识缺陷,而是模型架构在追求计算效率与逻辑稳健性之间的一种内在权衡。在未来大模型的结构设计中,如何在保证可扩展性与效率的同时,增强语境推理通路的鲁棒性,可能会成为一个不可回避的重要研究方向。