这次,LLM黑盒被LLM打开了~
随着大语言模型(LLM)能力的飞跃,其内部机制却愈发不透明。传统可解释性方法依赖固定标签集(如情感、词性)去“探测”神经元,但模型可能学到人类未曾定义的新概念。【AI大模型教程】
图1:从单个神经元、注意力头到 SAE 特征与电路,均可生成开放词汇的自然语言描述。
概念描述(Concept Description)新范式应运而生:用另一个 LLM 自动生成自然语言解释,告诉我们“这个神经元到底在检测什么”。
表1:按组件/抽象层、描述来源及目标数据集分类的概念描述技术一览。
二、核心定义:我们在描述什么?
| 层级 | 对象 | 典型问题 |
|---|---|---|
| 组件 | 神经元、注意力头 | 为何同一个神经元对“法律条款”与“1980 年代”同时兴奋? |
| 抽象 | SAE 稀疏特征、电路 | 能否用一句话总结整条“间接宾语识别”电路的功能? |
多语义性(polysemanticity)是最大障碍:一个神经元可能同时编码多个无关概念,导致单一描述必然失真。
三、方法地图:如何生成描述?
图2:自上而下依次展示神经元/SAE、注意力头、整段电路的描述生成流程。
| 方法类别 | 代表工作 | 关键思路 | 示例输出 |
|---|---|---|---|
| 神经元描述 | Bills et al. 2023 | 取最高激活文本 → 用 GPT-4 生成一句话 | “检测法律文档中的免责条款” |
| 注意力头描述 | Elhelo & Geva 2025 | 将权重矩阵投影到词表,自动发现“主语-动词”对齐模式 | “执行相邻 token 的复制操作” |
| SAE 特征描述 | Cunningham et al. 2024 | 对稀疏自编码器特征复用神经元描述流程 | “与夏季相关的旅游词汇” |
| 电路描述 | Wang et al. 2023a | 人工+自动追踪子图,再生成自然语言总结 | “IOI 电路:将‘She’与‘Mary’建立间接宾语关联” |
四、评估工具箱:怎么判断描述好坏?
将 20 余项指标归入 5 大家族(见表2):
表2
现状:自动指标易规模但相关≠因果;人类评判最可信却成本高。
未来:需要“干预+对抗”风格的因果压力测试。
五、关键发现:社区在关注什么?
- 从神经元到 SAE:多语义性推动研究转向稀疏自编码器特征。
- 从相关到因果:2024 年起,半数新工作引入干预式评估。
- 从单概念到多概念:PRISM 等框架允许一个特征拥有多条描述,解决“一词多义”难题。
概念描述让我们第一次以开放词汇的方式窥见 LLM 的内部语言。
但**“能说人话”≠“说真话”**——只有结合因果干预、人类校验与标准化基准,才能把“故事”变成“知识”。
https://arxiv.org/pdf/2510.01048
Interpreting Language Models Through Concept Descriptions: A Survey