先给你一个重要判断:严格说,这个链接是 arXiv 预印本,不等于“顶刊/顶会已发表论文” 。它的题目、作者、摘要和代码链接都在 arXiv PDF 首页,当前版本是 v1,日期是 2026 年 2 月 23 日。你可以在汇报里说“这是一篇较新的 arXiv 预印本 / 前沿工作”,但不要直接说“顶刊论文”,除非老师明确说它已被某个顶会/期刊接收。(arXiv)
你现在不用慌。这篇论文对没学过 CV 的人确实很难,因为它不是普通“图像分类/目标检测”论文,而是 VLM 机制可解释性论文。它真正研究的不是“怎么让模型识别图片”,而是:
给视觉语言模型一张图和一句话后,模型内部到底经过了哪些特征、哪些路径,最后才输出答案?
你的 PPT 目前已经抓到了“背景—方法—实验—总结”的主线,但很多地方还像 AI 总结稿,缺少你自己的阅读痕迹和“我看懂了哪一点”的表达。
一、这篇论文你应该怎么读
你不要从公式开始读。你现在的目标不是复现代码,也不是完全掌握机制可解释性,而是能讲清楚论文解决了什么问题、用了什么办法、发现了什么现象。
读法按这个顺序:
第一步:先读摘要和引言,只抓 4 个问题
你只问自己四句话:
- 它研究的对象是什么?
视觉语言模型,也就是能同时处理图片和文本的模型,比如 LLaVA、GPT-4o、Gemma-3 这类。 - 它想解决什么问题?
VLM 很强,但内部推理过程像黑盒。我们不知道它是如何把图片信息和文字信息结合起来的。 - 它用了什么方法?
用 transcoder、attribution graph、attention-based analysis 做“电路追踪”。 - 它发现了什么?
视觉和语义信息不是一开始就融合,而是在模型深层逐步融合;模型内部有一些可以被追踪、干预、控制的“特征电路”。(arXiv)
你先把这四个问题答出来,就已经比“通篇硬翻译”有效得多。
二、先建立这篇论文的核心词典
你读这篇文章前,必须先知道几个词,不然每段都会卡住。
1. VLM:视觉语言模型
就是同时看图和读文字的模型。比如你给它一张海獭图片,再问“这是什么动物?”,它能回答“海獭”。
论文里说,VLM 可以做视觉问答、图像描述、复杂视觉推理、具身智能等任务。(arXiv)
2. Circuit tracing:电路追踪
这里的“电路”不是物理电路,而是模型内部的一条“计算路径”。
比如模型看到海獭图片后,内部可能先激活“毛茸茸动物”“水中动物”“海洋生物”“otter”这些特征,最后输出 “otter”。
circuit tracing 就是把这条内部路径找出来。
3. Transcoder:代码转换器 / 转码器
你可以先粗暴理解成:
把模型内部一团乱麻的高维激活,转换成比较稀疏、比较容易解释的特征。
原本模型内部的神经元很难解释,一个神经元可能同时管很多概念。transcoder 的作用是把这些混杂表示拆成更单一、更容易解释的特征。论文明确说它用 transcoders 来把神经表示分解成可解释特征。(arXiv)
4. Attribution graph:归因图
你可以理解成:
把模型内部“哪个特征影响了哪个特征,最后怎么影响输出”画成一张图。
节点是特征,边是影响关系。边的权重越大,说明影响越强。论文说它用 attribution graph 来映射特征之间的因果关系。(arXiv)
5. Steering / Circuit patching:干预验证
这一步很关键,因为它说明论文不是只做“看图说话式解释”,而是做了因果验证。
比如发现某个特征和“海獭”有关,那我就人为增强或抑制这个特征,看模型输出会不会变。
如果一改它,模型答案真的变了,就说明这个特征不是巧合,而是有因果作用。论文也说,它通过 feature steering 和 circuit patching 验证这些电路是 causal and controllable。(arXiv)
三、现在开始逐段读:标题 + 摘要
下面我会按“原文大意翻译 + 人话解释 + 你该记什么”来带你读。
标题
Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking
翻译
视觉语言模型中的电路追踪:理解多模态思维的内部机制
人话解释
这篇论文不是研究“模型表现有多好”,而是研究:
VLM 在看图、读文字、做推理的时候,内部到底是怎么一步步计算的?
“multimodal thinking” 指的是模型同时处理图像和文本时表现出来的推理过程。
你该记的表达
你汇报时可以说:
这篇论文关注的不是 VLM 的外部性能提升,而是试图打开模型内部黑箱,追踪视觉信息和语言信息在模型中的传播路径。
摘要第 1 句
原文大意:
视觉语言模型很强大,但仍然是不透明的黑箱。
翻译
视觉语言模型虽然能力很强,但它们的内部机制仍然不透明,像黑箱一样难以理解。
人话解释
这就是论文的起点:
VLM 可以回答图片问题、生成描述、进行视觉推理,但我们不知道它为什么这么回答。
比如模型把六根手指说成五根,我们只能看到错了,却不知道错在哪里:
是视觉编码器没看清?是语言模型有“人通常五根手指”的先验?还是中间融合过程出了问题?
你该记什么
这一句对应论文的研究背景:
能力强 ≠ 可信。
如果不知道模型内部怎么推理,就很难诊断错误、修正偏差、提高安全性。
摘要第 2 句
原文大意:
作者提出了第一个用于 VLM 的透明电路追踪框架,用来系统分析多模态推理。
翻译
本文提出了首个面向视觉语言模型的透明电路追踪框架,用于系统性分析模型的多模态推理过程。
人话解释
作者的野心是:
以前机制可解释性主要研究纯语言模型,现在他们要把“电路追踪”搬到 VLM 上。
所谓“透明电路追踪框架”,就是建立一套方法,把 VLM 内部看不见的计算过程变成可以观察、可以画图、可以干预的结构。
你该记什么
这一句对应论文的核心贡献 1:
把原来用于 LLM 的 circuit tracing 方法扩展到 VLM 场景。
摘要第 3 句
原文大意:
他们使用 transcoders、attribution graphs 和 attention-based methods,发现 VLM 如何分层整合视觉概念和语义概念。
翻译
通过使用代码转换器、归因图和基于注意力的方法,作者揭示了 VLM 如何以分层方式整合视觉概念和语义概念。
人话解释
这句话是全文方法的压缩版。
三个工具分别对应三件事:
| 工具 | 作用 |
|---|---|
| Transcoder | 把模型内部复杂激活拆成可解释特征 |
| Attribution graph | 追踪特征之间的因果影响路径 |
| Attention-based methods | 帮助解释图像 token 对应的视觉区域 |
“分层整合”是这篇论文的一个重要发现:
视觉和语言不是一进入模型就完全融合,而是在不同层逐步处理,到了较高层才形成更统一的多模态表示。论文摘要和引言都强调了这一点。(arXiv)
你该记什么
你可以把这一句理解成论文的方法公式:
Transcoder 拆特征 → Attribution graph 画路径 → Attention 分析视觉区域 → 得到 VLM 的内部推理电路。
摘要第 4 句
原文大意:
他们发现,不同的视觉特征电路可以处理数学推理,也支持跨模态关联。
翻译
研究发现,模型内部存在不同的视觉特征电路,这些电路不仅能够处理数学推理,还能够支持视觉与语言之间的跨模态关联。
人话解释
这个地方非常适合你在 PPT 里讲成“论文最有意思的发现”。
比如模型看到图片里的 “1 + 2 = ?”,它不只是把图片转成文字再算,而是内部可能存在和数字、结果相关的视觉特征路径。
再比如看到火星图片,模型内部可能会激活“航天飞机”等相关概念,说明视觉特征和语义知识之间有内部关联。论文在引言里把 visual math reasoning、six finger hallucination、Mars and Space Shuttle 作为代表案例。(arXiv)
你该记什么
你可以说:
这说明 VLM 内部并不是简单地“看图—转文字—回答”,而可能存在专门的视觉推理路径和跨模态关联路径。
摘要第 5 句
原文大意:
通过 feature steering 和 circuit patching 验证后,作者证明这些电路具有因果性和可控性。
翻译
通过特征引导和电路修补实验,作者验证了这些电路不仅是相关现象,而且具有因果作用,并且可以被控制。
人话解释
这句话是摘要里最关键的“可信度加分点”。
很多可解释性研究的问题是:
你画出来的解释图,可能只是事后解释,不一定真的控制了模型输出。
但这篇论文说,我不只是观察,我还做干预:
- 把某个特征增强,看输出是否变强;
- 把某个电路移植到另一个输入上,看模型是否产生相应变化。
如果改内部特征会导致输出变化,就说明这个特征/电路对结果真的有因果影响。论文明确把 steering 和 circuit patching 作为 intervention with multimodal circuits 的方式。(arXiv)
你该记什么
你 PPT 里一定要强调:
这篇论文的解释不是停留在“可视化相关性”,而是进一步通过干预实验验证因果性。
这句话会显得你真的读懂了一点。
四、引言部分逐段读
引言第 1 段:VLM 很强,但问题是我们不知道它内部怎么工作
翻译
视觉语言模型的发展改变了机器理解和推理多模态信息的方式。CLIP、Flamingo、LLaVA、GPT-4o 等模型在视觉问答、图像描述、复杂视觉推理、具身智能等任务中表现出很强能力。它们可以把视觉感知和语言理解结合起来,回答图像相关问题,生成图像描述,甚至完成需要跨模态协调的多步推理。尽管这些模型取得了很好的经验效果,一个关键问题仍然没有解决:这些模型内部到底是如何工作的?(arXiv)
人话解释
这一段是标准论文开头,但不是废话。它做了三件事:
- 说明 VLM 已经很强;
- 举例说明 VLM 能做什么;
- 转折到核心问题:强归强,但我们不知道它内部怎么推理。
你读的时候不要被 CLIP、Flamingo、LLaVA、GPT-4o 吓到。你只要知道它们都是代表性 VLM。
你该怎么讲
你汇报时可以这样说:
引言首先指出,VLM 已经可以完成视觉问答、图像描述和复杂视觉推理,但这些能力主要是从外部任务表现上观察到的。论文真正关心的是内部机制:模型到底如何把视觉信息和语言信息组织起来,并形成最终回答?
引言第 2 段:为什么理解内部机制很重要
翻译
理解 VLM 的工作机制对于构建可信、可控的 AI 很重要。虽然这些模型已经用于医学影像、自动驾驶、内容审核等高风险场景,但它们的决策过程仍然不透明。这种缺乏可解释性的问题,使得研究者很难诊断错误、减少偏见,也难以确保模型与人类价值对齐。同时,它也限制了科学理解:如果能够逆向工程模型内部机制,就可以揭示视觉和语言如何交互,并指导设计更强、更高效的模型架构。(arXiv)
人话解释
这一段是在回答“为什么要研究可解释性”。
因为 VLM 不透明会带来两个问题:
第一是应用风险。
比如医疗、自动驾驶、内容审核,如果模型错了,你必须知道它为什么错。
第二是科学问题。
我们不只是想用模型,还想知道模型到底学到了什么、内部怎么组织知识。
你该怎么讲
这一段你可以压缩成一句:
研究 VLM 内部机制既有应用意义,也有科学意义:前者关系到错误诊断和安全控制,后者关系到我们能否理解视觉与语言在模型内部如何交互。
引言第 3 段:现有方法不够,因为大多研究纯文本模型
翻译
近期可解释性研究已经开始揭示语言模型内部的算法,例如注意力可视化、探针分析和电路发现。但是,这些方法几乎都集中在纯文本模型上。VLM 面临更深层的挑战:它必须整合两种统计特征和语义结构都不同的模态,同时还要发现有意义的视觉—语言对应关系。VLM 如何把视觉特征绑定到文本 token 上,如何实现跨模态推理,如何协调视觉注意力和语言注意力,目前仍然很不清楚。因此,相比单一文本模型或早期视觉可解释性研究,VLM 的可解释性是一个更复杂的前沿问题。(arXiv)
人话解释
这一段是论文的“研究空白”。
以前的机制可解释性主要研究 LLM,比如模型为什么会续写某个词、为什么能做某类语言任务。
但 VLM 多了图片,所以难点变成:
- 图片 token 怎么和文字 token 对齐?
- 模型在哪一层开始融合视觉和语言?
- 模型回答时到底依赖图片,还是依赖语言先验?
- 错误答案是视觉错了,还是语言推理错了?
你该怎么讲
你可以这样表达:
这篇论文的研究空白在于:已有机制可解释性主要面向纯文本 LLM,而 VLM 涉及视觉 token 与文本 token 的绑定、融合和推理,因此不能简单套用原来的方法。
这句话很重要,老师会觉得你不是只在复述摘要。
引言第 4 段:本文提出什么方法
翻译
本文提出了第一个成功用于 VLM 的电路追踪框架,使研究者能够系统分析多模态推理背后的内部计算机制。作者的方法建立在近期语言模型可解释性研究基础上,具体来说,利用 transcoders 将神经表示分解为可解释特征,并结合基于归因的电路发现方法,映射特征之间的因果关系。作者称自己是第一个将这些技术扩展到多模态场景的工作。通过这样做,他们处理了视觉语言融合带来的独特挑战,并提出了新的方法来追踪信息如何从视觉输入开始,经过模型推理过程,最终影响输出。(arXiv)
人话解释
这一段就是论文的“方法总述”。
你可以把它理解成:
作者把 LLM 里的机制可解释性工具,改造成可以分析 VLM 的工具。
这不是从零发明所有东西,而是“迁移 + 适配 + 扩展”。
它的创新点不一定是每个组件全新,而是第一次把这些组件组合起来,用于 VLM 的内部电路追踪。
你该怎么讲
这段可以变成 PPT 里的“方法概览”:
方法上,作者将 LLM 机制可解释性中的 transcoder 和 attribution-based circuit discovery 扩展到 VLM,通过特征分解、归因图构建和视觉 token 解释,实现从图像输入到输出答案的内部路径追踪。
五、你现在先不要继续往下硬读,先记住这篇论文的“一句话版本”
你可以先背这个:
这篇论文研究如何打开视觉语言模型的黑箱。作者把语言模型机制可解释性中的 transcoder 和 attribution graph 扩展到 VLM,用来追踪图像和文本信息在模型内部如何流动、融合并影响输出。实验发现,VLM 的视觉与语义信息是在较高层逐步融合的,并且模型内部存在可被干预验证的视觉推理电路,例如视觉数学推理、六指幻觉和火星—航天飞机关联等案例。
这个版本足够你作为汇报开场。
六、下一步我们怎么读
你这篇论文不用一次读完。最适合的顺序是:
第 1 轮:只读摘要 + 引言 + 图 1 + 结论
目标:知道它讲什么。
第 2 轮:读 Section 3 方法
目标:弄懂 transcoder、attribution graph、feature interpretation 三个组件分别干什么。
第 3 轮:读实验案例
目标:挑 2 个最好讲的案例放 PPT:
一个讲“视觉数学推理”,一个讲“六指幻觉”。
第 4 轮:再回头看公式
目标:不是推导,而是知道每个公式在干什么。
下一步我建议直接读 Section 3.1 Transcoders。这部分是你 PPT 里最需要改得专业一点的地方,因为它有公式,也最容易体现“我不是全靠 AI 总结”。
对,你现在已经懂了第一层:这篇论文是在打开 VLM 黑箱。
第二层要懂的是:它到底怎么打开?怎么把一堆看不懂的模型激活,变成一张可以解释的“电路图”?
我按“从输入到输出”的真实流程讲。
0. 先给你一句总公式
这篇论文的方法可以压缩成一句话:
把 VLM 每层 MLP 里的复杂激活,用 transcoder 翻译成稀疏特征;再用 attribution graph 计算这些特征之间谁影响谁;最后用 feature steering 和 circuit patching 改特征,验证这些路径是不是因果路径。
也就是:
原始 VLM 黑箱 → 转码器翻译特征 → 归因图连接特征 → 人工解释电路 → 干预验证因果
论文自己也把框架分成 transcoders、attribution graphs、feature interpretation、circuit discovery、intervention/steering 几个部分。(arXiv)
1. 先理解 VLM 内部到底有什么
你现在先不要想公式,先想模型结构。
一个 VLM 接收两类输入:
- 图片
图片会先经过视觉编码器,比如 SigLIP,把图片切成很多视觉 token。 - 文字 prompt
比如用户问:“What is shown in the image?”
然后图片 token 和文字 token 会一起送进语言模型部分,也就是 Transformer decoder。
这篇论文用的是 Gemma-3-4B-it。论文说,Gemma-3-4B-it 用 SigLIP 视觉编码器处理图像,再把图像 token 和文本 token 拼接后送进 transformer decoder;它有 34 层 transformer,隐藏维度是 2560,MLP 维度是 10240。
你可以理解为:
图片 → 视觉编码器 → 图像 token
文字 → 文本 token
图像 token + 文本 token → 语言模型 → 输出答案
问题是:
中间 34 层 Transformer 里每一层都在做复杂计算,我们人看不懂。
所以论文要做的就是:
不直接看原始神经元,而是先把每层 MLP 的内部表示翻译成“可解释特征”。
2. 第一块核心:Transcoder 是怎么实现“翻译”的?
2.1 为什么需要 Transcoder?
模型内部的原始激活是一个很长的向量。
比如某一层 MLP 的输入是:
x = [0.12, -0.88, 1.43, 0.03, ...]
这东西对人没有意义。你不知道第 238 维代表“海獭”,还是“毛茸茸”,还是“图片左上角”。
更麻烦的是,神经元常常是 polysemantic 的,也就是一个神经元可能同时响应很多无关概念。论文相关工作部分说,神经表示常常是 polysemantic,SAE 和 transcoder 的目标就是恢复更可解释、更接近单一语义的特征。(arXiv)
所以 transcoder 的任务是:
把原来混杂的 MLP 激活,拆成很多稀疏的、相对单一语义的特征。
比如原来一团向量里混着这些东西:
[动物信息 + 水面信息 + 数字信息 + 语法信息 + 图片区域信息 + 输出倾向]
transcoder 希望拆成:
feature 1023:海獭
feature 2881:水中动物
feature 5302:数字 3
feature 9120:火星
feature 1177:航天飞机
当然,真实情况没这么干净,但这是它的目标。
2.2 Transcoder 和普通 SAE 有什么区别?
论文这里有一个关键点。
普通 SAE 是:
给我一个模型激活,我学习把这个激活重建回来。
也就是:
activation → sparse features → reconstruct activation
Transcoder 更进一步,它不是只重建原始激活,而是模仿一个 MLP 子层的输入输出行为。
也就是:
MLP 输入 x → sparse features → 近似 MLP 输出
论文说,SAE 是直接重建 transformer activations,而 transcoder 是替换 transformer 的 MLP 子层,在保持计算等价的同时让分析进入 feature-level。(arXiv)
你可以这么理解:
普通 SAE 像“翻译一段话”;
Transcoder 像“替代一个加工机器”。
原始 MLP 是黑箱机器:
输入 x → 原始 MLP → 输出 y
现在训练一个 transcoder,让它尽量做到:
输入 x → transcoder → 输出 y_hat ≈ y
如果 y_hat 和 y 很接近,就说明 transcoder 可以近似替代原来的 MLP。这样模型内部就从“黑箱 MLP”变成了“由稀疏特征组成的可分析模块”。
3. Transcoder 的公式到底在干什么?
论文的公式其实不难,你只要知道每个符号的作用。
3.1 编码器:把输入 x 变成稀疏特征 z
论文公式是:
z(x) = ReLU(W_enc x + b_enc)
论文说 encoder 把 MLP 输入 x 映射到 learned latent features。(arXiv)
大白话:
输入 x 原来是模型的一段内部表示,编码器把它变成一组特征激活 z。
比如:
x:模型内部原始向量
z:
feature 1 = 0
feature 2 = 3.8
feature 3 = 0
feature 4 = 1.2
feature 5 = 0
...
ReLU 的作用是:
小于 0 的变成 0,大于 0 的保留。
所以很多特征会变成 0。
这就有了“稀疏性”的基础。
3.2 Top-K:只保留最强的 k 个特征
论文说,它不像原始 transcoder 那样用 L1 penalty,而是直接用 TopK,只保留最大的 k 个激活;这样训练更稳定。论文实验里 k 取 48。(arXiv)
大白话:
每次模型经过这一层时,可能有几万个候选特征,但作者只保留最强的 48 个。
比如原来 z 里面有:
海獭 = 9.1
水面 = 7.3
毛茸茸 = 6.8
动物 = 6.1
咖啡杯 = 0.2
汽车 = 0.1
...
Top-K 后只留下最相关的一小批。
这就像你写论文摘要,不能把所有细节都写进去,只保留最重要的关键词。
为什么这重要?
因为如果所有特征都激活,图会乱成毛线。
只有稀疏,后面才能画出可解释电路。
3.3 解码器:把稀疏特征还原成 MLP 输出
论文公式是:
TC(x) = W_dec z(x) + b_dec
大白话:
解码器把这些稀疏特征重新组合,生成一个近似原始 MLP 输出的结果。
也就是:
原始 MLP:x → MLP(x)
Transcoder:x → z(x) → TC(x)
希望:TC(x) ≈ MLP(x)
这一步很关键,因为作者不是只想解释模型,还想让 transcoder 替代 MLP 后,模型功能不要崩。
论文说,训练完每个 MLP block 的 transcoder 后,他们构造 replacement model,用对应 transcoder 替代每个 MLP,使网络表达为 sparse learned latent features。(arXiv)
3.4 FVU:衡量 transcoder 还原得像不像
论文用 FVU 来衡量重建质量:
FVU = MSE / Var(y)
你不用会推导,只记意思:
FVU 越低,说明 transcoder 越像原来的 MLP。
MSE 是预测误差。
Var(y) 是原始输出本身的变化程度。
如果 FVU 很小,说明:
TC(x) 和 MLP(x) 很接近
也就是 transcoder 替代 MLP 不会严重破坏模型。
论文明确说,y 是原始 MLP 输出,y_hat 是 TC(x),训练最小化 reconstruction error,稀疏性由 k 控制。(arXiv)
3.5 残差 e(x):承认 transcoder 不可能完美
论文还有一个公式:
e(x) = MLP(x) - TC(x)
这是什么意思?
就是:
原始 MLP 输出减去 transcoder 输出,剩下的误差单独记录。
为什么要这样做?
因为 transcoder 只是近似,不可能 100% 等于原始 MLP。
如果不记录这个误差,后面的归因图可能会把一些解释遗漏掉。
论文说,他们把 reconstruction residual 作为 circuit graph 里的 separate error node,用来处理近似误差。(arXiv)
你可以讲成:
作者没有假装 transcoder 完美替代 MLP,而是把近似误差显式加入图中,避免后续因果分析被重建误差污染。
这句话很专业,适合放 PPT。
4. 第二块核心:Attribution Graph 怎么把特征连成“电路”?
现在你已经有了一堆特征,比如:
第 10 层:图片中的红色特征
第 15 层:数字 3 特征
第 20 层:火星视觉特征
第 25 层:航天飞机语义特征
输出层:Mars / otter / five / three
但光有特征还不够。
你还要知道:
哪个特征影响了哪个特征?哪个特征最终推动了输出?
这就是 attribution graph。
4.1 Attribution Graph 是什么?
论文说,每个节点可以是 token embedding、某个 layer-position 上的 active transcoder feature,或者 output logit;边的权重是 attribution。(arXiv)
翻成人话:
图里的节点有三类:
输入节点:图片 token、文本 token
中间节点:某一层某个位置的特征
输出节点:最终候选词的 logit,比如 "otter"、"five"
边表示:
这个节点对另一个节点有多大影响
比如:
海獭视觉特征 → 水中动物特征 → otter 输出
如果边很粗,说明影响大。
如果边很细,说明影响小。
如果影响小到低于阈值,就剪掉。
论文说,他们构造完整有向归因图,然后剪掉 attribution 很小的边,得到 sparse, interpretable graph。(arXiv)
4.2 归因值公式是什么意思?
论文公式:
A_s→t = a_s w_s→t
你只记一句:
一个源特征对目标特征的影响 = 源特征自己有多强 × 它通向目标特征的连接有多强。
其中:
a_s是源节点激活值;w_s→t是虚拟权重,也就是在当前输入附近,源节点变化会如何影响目标节点。
论文说,w_s→t 是目标节点预激活值对源节点激活值的局部导数。(arXiv)
大白话:
如果“海獭特征”本身激活很强,
而且它对 “otter 输出” 的影响通路也很强,
那它的归因值就大。
反过来:
如果一个特征激活很强,但和最终答案没啥关系,归因值不一定大。
如果一个通路理论上很强,但源特征根本没激活,归因值也不大。
所以这个公式非常合理:
影响力 = 自己出现得强不强 × 对目标推动力强不强
4.3 为什么它能算?靠“局部线性化”
这是这篇论文最难但最关键的原理之一。
VLM 是非线性的,按理说很难直接说“谁影响谁”。
论文的做法是:
对一个固定 prompt,把 ReLU、attention pattern、normalization factors 这些非线性东西固定在当前输入的值上,于是模型在这个输入附近就可以近似看成线性系统。
论文原文说,因为 transcoder 用稀疏线性 readout 替代 MLP,并且所有非线性被冻结在给定 prompt 上,模型在该输入附近变成 locally linear。(arXiv)
这句话很抽象,我用比喻讲:
模型像一条复杂山路,有很多弯。
全局来看,它不是直线。
但如果你只看你脚下这一小段路,它近似是直的。
所以对于某一个具体输入:
这张图片 + 这个问题
作者暂时冻结模型内部的非线性状态,把它看成局部线性。
这样就能算出:
某个特征增加一点,会对后面特征/输出产生多大影响
这就是 attribution graph 的数学基础。
5. 第三块核心:Feature Interpretation 怎么知道某个特征是什么意思?
现在图里有很多节点,但节点名可能是:
layer 18, position 42, feature 123456
这对人还是没意义。
所以需要解释特征。
论文用了两种主要办法:
5.1 Feature activation analysis:看哪些样本最能激活这个特征
论文说,为了理解每个 transcoder feature,他们在大量视觉语言输入中分析激活模式。对每个特征,收集 top-k activating examples,也就是最能激活该特征的图文对,然后观察共同点。(arXiv)
大白话:
想知道一个特征代表什么,就找最能点亮它的样本。
比如某个 feature 在这些样本里最强:
海獭图片 + "What animal is this?"
水中海獭图片 + "Describe the animal"
毛茸茸动物浮在水面上的图片
那人工观察后就可以标注:
这个 feature 可能代表“海獭/水中毛茸茸动物”
如果某个 feature 总是在数学图片里激活:
1 + 2 =
three objects
坐标轴上有 3 个点
那它可能和 “3 / 数量三” 有关。
5.2 Attention map:图像 token 不好解释,所以看它关注图片哪里
文本 token 比较好解释,因为你知道单词是什么。
但图像 token 很难解释,因为一个图像 token 对应图片区域。
所以论文对视觉编码器做 attention rollout,生成 heatmap,看某个视觉 token 主要关注图片哪些区域。论文说,Gemma 3 的 SigLIP vision encoder 会把 896×896 图像处理成 256 个视觉 token,再输入语言模型;作者计算 attention-rollout maps,用灰度热力图显示 vision tower 最关注的图像区域。(arXiv)
大白话:
如果一个特征说自己和“手指数量”有关,那它应该关注手指区域,而不是背景墙。
所以 attention map 是用来辅助判断:
这个特征到底是不是在看我们以为它在看的地方?
6. 第四块核心:Circuit Discovery 怎么从大图变成小图?
归因图一开始很大,里面有很多节点和边。
但人类不可能看完所有节点。
所以作者要做 circuit discovery,也就是找出最关键的子图。
论文说,circuit 是对给定输入解释模型 output logits 的 computational graph 的抽象表示;他们会把功能相似的特征分组为共享节点,得到简化图。并且当前工作使用 human experts 来发现和标注 circuits,因为人工标注仍然最准确、最可解释。
这点你要注意:
这篇论文不是全自动解释。
它有一个“人工专家解释”的环节:
自动生成 attribution graph
↓
人看 top activating examples 和 attention maps
↓
人工归纳节点含义
↓
人工整理出最终 circuit
这也是你可以在 Limitations 里写的点:
该框架仍依赖人工专家解释和标注电路,因此自动化程度有限,扩展到更大模型和更多任务时可能面临成本问题。
7. 第五块核心:Intervention / Steering 怎么证明不是“瞎解释”?
这是第二层里最重要的逻辑。
很多解释方法只是在模型输出后画热力图。
但热力图不一定有因果意义。
这篇论文做了干预:
7.1 Feature steering:直接改某个特征
论文说,为了研究某个 transcoder feature 如何影响模型行为,他们在 forward pass 期间直接修改 feature activation,然后观察模型输出变化。
大白话:
如果我觉得某个特征代表“火星”,那我就人为增强它,看看模型是不是更倾向输出 Mars。
或者:
如果我觉得某个特征导致“六指被说成五指”,那我就压低它,看看模型是否更可能输出 six。
这一步就是在问:
你这个特征到底只是相关,还是能真的改变模型输出?
7.2 Circuit patching:把一条电路移植到另一个输入里
论文说,circuit patching 是在前向传播中直接覆盖选定的内部激活,或者把一个电路的整个子电路移植到另一个电路中,看输出是否复现相似行为。
大白话:
把 A 输入里发现的“火星电路”,复制到 B 输入的模型运行中,看 B 是否也表现出火星相关输出倾向。
这就像:
原本图片:地球
原本输出:Earth
把 Mars 电路 patch 进去
观察输出是否更偏向 Mars
如果真的变了,说明这个电路不是作者脑补出来的,而是对输出有实质影响。
8. 把整篇方法连起来:它到底怎么跑一遍?
你可以想象作者拿一张图和一句 prompt,比如:
图片:火星
问题:What planet is this?
完整流程如下:
第一步:正常跑 Gemma-3-4B-it
模型先处理图片和文本,产生答案。
Mars
同时缓存每一层 MLP 的输入输出和激活。
第二步:用 transcoder 替代每层 MLP
每层 MLP 都训练一个 transcoder:
MLP_l(x) ≈ TC_l(x)
于是原本黑箱 MLP 变成:
输入 x → 稀疏特征 z → 重建输出
这时候模型内部就不再只是不可解释的 dense activation,而是一堆 sparse features。
第三步:找出当前输入激活了哪些特征
比如:
低层:圆形红色星球视觉特征
中层:火星表面纹理特征
高层:Mars 语义特征
高层:space shuttle 关联特征
输出:Mars logit
第四步:计算 attribution graph
对每个激活特征,计算:
它影响了哪些后续特征?
影响强度是多少?
它最后对 Mars 输出贡献多大?
得到一张大图。
第五步:剪枝
把贡献很小的边删掉,只保留主要路径:
火星视觉特征 → 红色星球特征 → Mars 语义特征 → Mars 输出
或者:
Mars 视觉特征 → space shuttle 关联特征
第六步:解释节点
通过 top activating examples 和 attention maps,人工判断每个节点代表什么。
第七步:干预验证
增强/抑制某些节点,或者把电路 patch 到其他输入里。
如果输出随之变化,就说明这条电路有因果作用。
9. 你最该理解的“原理层”不是公式,而是这三个思想
思想 1:把神经元换成“特征”
普通人看不懂单个神经元。
论文不直接解释神经元,而是训练 transcoder,把混杂激活拆成更容易解释的 feature。
这就是从:
神经元级别解释
变成:
特征级别解释
思想 2:把一次模型运行局部线性化
模型整体很非线性。
但对某个具体输入,可以冻结非线性部分,把它近似成线性系统。
这样就能算:
feature A 对 feature B 的贡献
feature B 对输出 token 的贡献
这是 attribution graph 能成立的基础。
思想 3:解释必须通过干预验证
只看相关性不够。
必须改内部特征,看输出是否改变。
所以这篇论文比普通 attention heatmap 更强的地方在于:
它试图从“可视化解释”走向“因果解释”。
10. 这篇论文你可以怎么讲得像自己懂了?
你汇报时不要说“本文提出了一个框架,具有重要意义”这种空话。
你可以说这段:
我理解这篇论文的关键,不是简单地给 VLM 画注意力热力图,而是把模型内部 MLP 的 dense activation 先通过 transcoder 转换成 sparse features。这样,模型内部的计算就可以被表示为特征之间的相互作用。随后作者在固定输入下冻结非线性部分,将模型局部线性化,用 attribution graph 计算特征之间的影响路径。最后再通过 steering 和 circuit patching 改变特征激活,验证这些路径是否真的能改变输出。因此,这篇论文的解释逻辑是“特征分解—路径归因—因果干预”,比单纯的事后可视化更接近机制解释。
这段你可以直接放到 PPT 或讲稿里。
11. 你现在读论文时该重点看哪几页?
你不要整篇平均用力。
现在优先看:
- Section 3.1 Transcoders
只看公式 1、2、3、4,理解“输入 → 稀疏特征 → 近似 MLP 输出 → 残差”。 - Section 3.2 Attribution Graphs
只看公式 5,理解“归因 = 激活强度 × 虚拟权重”。 - Section 3.3 Feature Interpretation and Attention Analysis
理解怎么给特征命名:top activating examples + attention maps。 - Section 3.5 Intervention and Steering
理解怎么验证因果:改特征,看输出变不变。
你现在不需要硬啃所有参考文献,也不需要把 Jacobian 推导搞明白。你只要能讲清楚:
为什么需要 transcoder?
为什么要 attribution graph?
为什么要 intervention?
就已经超过大部分“AI 生成 PPT”的水平了。