这次,LLM黑盒被LLM打开了~

35 阅读3分钟

这次,LLM黑盒被LLM打开了~

随着大语言模型(LLM)能力的飞跃,其内部机制却愈发不透明。传统可解释性方法依赖固定标签集(如情感、词性)去“探测”神经元,但模型可能学到人类未曾定义的新概念。【AI大模型教程】


图1:从单个神经元、注意力头到 SAE 特征与电路,均可生成开放词汇的自然语言描述。

概念描述(Concept Description)新范式应运而生:用另一个 LLM 自动生成自然语言解释,告诉我们“这个神经元到底在检测什么”。

表1:按组件/抽象层、描述来源及目标数据集分类的概念描述技术一览。

二、核心定义:我们在描述什么?

层级对象典型问题
组件神经元、注意力头为何同一个神经元对“法律条款”与“1980 年代”同时兴奋?
抽象SAE 稀疏特征、电路能否用一句话总结整条“间接宾语识别”电路的功能?

多语义性(polysemanticity)是最大障碍:一个神经元可能同时编码多个无关概念,导致单一描述必然失真。

三、方法地图:如何生成描述?


图2:自上而下依次展示神经元/SAE、注意力头、整段电路的描述生成流程。

方法类别代表工作关键思路示例输出
神经元描述Bills et al. 2023取最高激活文本 → 用 GPT-4 生成一句话“检测法律文档中的免责条款”
注意力头描述Elhelo & Geva 2025将权重矩阵投影到词表,自动发现“主语-动词”对齐模式“执行相邻 token 的复制操作”
SAE 特征描述Cunningham et al. 2024对稀疏自编码器特征复用神经元描述流程“与夏季相关的旅游词汇”
电路描述Wang et al. 2023a人工+自动追踪子图,再生成自然语言总结“IOI 电路:将‘She’与‘Mary’建立间接宾语关联”

四、评估工具箱:怎么判断描述好坏?

将 20 余项指标归入 5 大家族(见表2):

表2

现状:自动指标易规模但相关≠因果;人类评判最可信却成本高。
未来:需要“干预+对抗”风格的因果压力测试

五、关键发现:社区在关注什么?

  1. 从神经元到 SAE:多语义性推动研究转向稀疏自编码器特征。
  2. 从相关到因果:2024 年起,半数新工作引入干预式评估。
  3. 从单概念到多概念:PRISM 等框架允许一个特征拥有多条描述,解决“一词多义”难题。

概念描述让我们第一次以开放词汇的方式窥见 LLM 的内部语言。
但**“能说人话”≠“说真话”**——只有结合因果干预、人类校验与标准化基准,才能把“故事”变成“知识”。

https://arxiv.org/pdf/2510.01048
Interpreting Language Models Through Concept Descriptions: A Survey