读论文先给你一个重要判断：严格说，这个链接是 arXiv 预印本，不等于“顶刊/顶会已发表论文” 。它的题目、作者、摘要

先给你一个重要判断：严格说，这个链接是 arXiv 预印本，不等于“顶刊/顶会已发表论文” 。它的题目、作者、摘要和代码链接都在 arXiv PDF 首页，当前版本是 v1，日期是 2026 年 2 月 23 日。你可以在汇报里说“这是一篇较新的 arXiv 预印本 / 前沿工作”，但不要直接说“顶刊论文”，除非老师明确说它已被某个顶会/期刊接收。(arXiv)

你现在不用慌。这篇论文对没学过 CV 的人确实很难，因为它不是普通“图像分类/目标检测”论文，而是 VLM 机制可解释性论文。它真正研究的不是“怎么让模型识别图片”，而是：

给视觉语言模型一张图和一句话后，模型内部到底经过了哪些特征、哪些路径，最后才输出答案？

你的 PPT 目前已经抓到了“背景—方法—实验—总结”的主线，但很多地方还像 AI 总结稿，缺少你自己的阅读痕迹和“我看懂了哪一点”的表达。

一、这篇论文你应该怎么读

你不要从公式开始读。你现在的目标不是复现代码，也不是完全掌握机制可解释性，而是能讲清楚论文解决了什么问题、用了什么办法、发现了什么现象。

读法按这个顺序：

第一步：先读摘要和引言，只抓 4 个问题

你只问自己四句话：

它研究的对象是什么？
视觉语言模型，也就是能同时处理图片和文本的模型，比如 LLaVA、GPT-4o、Gemma-3 这类。
它想解决什么问题？
VLM 很强，但内部推理过程像黑盒。我们不知道它是如何把图片信息和文字信息结合起来的。
它用了什么方法？
用 transcoder、attribution graph、attention-based analysis 做“电路追踪”。
它发现了什么？
视觉和语义信息不是一开始就融合，而是在模型深层逐步融合；模型内部有一些可以被追踪、干预、控制的“特征电路”。(arXiv)

你先把这四个问题答出来，就已经比“通篇硬翻译”有效得多。

二、先建立这篇论文的核心词典

你读这篇文章前，必须先知道几个词，不然每段都会卡住。

1. VLM：视觉语言模型

就是同时看图和读文字的模型。比如你给它一张海獭图片，再问“这是什么动物？”，它能回答“海獭”。

论文里说，VLM 可以做视觉问答、图像描述、复杂视觉推理、具身智能等任务。(arXiv)

2. Circuit tracing：电路追踪

这里的“电路”不是物理电路，而是模型内部的一条“计算路径”。

比如模型看到海獭图片后，内部可能先激活“毛茸茸动物”“水中动物”“海洋生物”“otter”这些特征，最后输出 “otter”。
circuit tracing 就是把这条内部路径找出来。

3. Transcoder：代码转换器 / 转码器

你可以先粗暴理解成：

把模型内部一团乱麻的高维激活，转换成比较稀疏、比较容易解释的特征。

原本模型内部的神经元很难解释，一个神经元可能同时管很多概念。transcoder 的作用是把这些混杂表示拆成更单一、更容易解释的特征。论文明确说它用 transcoders 来把神经表示分解成可解释特征。(arXiv)

4. Attribution graph：归因图

你可以理解成：

把模型内部“哪个特征影响了哪个特征，最后怎么影响输出”画成一张图。

节点是特征，边是影响关系。边的权重越大，说明影响越强。论文说它用 attribution graph 来映射特征之间的因果关系。(arXiv)

5. Steering / Circuit patching：干预验证

这一步很关键，因为它说明论文不是只做“看图说话式解释”，而是做了因果验证。

比如发现某个特征和“海獭”有关，那我就人为增强或抑制这个特征，看模型输出会不会变。
如果一改它，模型答案真的变了，就说明这个特征不是巧合，而是有因果作用。论文也说，它通过 feature steering 和 circuit patching 验证这些电路是 causal and controllable。(arXiv)

三、现在开始逐段读：标题 + 摘要

下面我会按“原文大意翻译 + 人话解释 + 你该记什么”来带你读。

标题

Circuit Tracing in Vision–Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

翻译

视觉语言模型中的电路追踪：理解多模态思维的内部机制

人话解释

这篇论文不是研究“模型表现有多好”，而是研究：

VLM 在看图、读文字、做推理的时候，内部到底是怎么一步步计算的？

“multimodal thinking” 指的是模型同时处理图像和文本时表现出来的推理过程。

你该记的表达

你汇报时可以说：

这篇论文关注的不是 VLM 的外部性能提升，而是试图打开模型内部黑箱，追踪视觉信息和语言信息在模型中的传播路径。

摘要第 1 句

原文大意：
视觉语言模型很强大，但仍然是不透明的黑箱。

翻译

视觉语言模型虽然能力很强，但它们的内部机制仍然不透明，像黑箱一样难以理解。

人话解释

这就是论文的起点：
VLM 可以回答图片问题、生成描述、进行视觉推理，但我们不知道它为什么这么回答。

比如模型把六根手指说成五根，我们只能看到错了，却不知道错在哪里：
是视觉编码器没看清？是语言模型有“人通常五根手指”的先验？还是中间融合过程出了问题？

你该记什么

这一句对应论文的研究背景：

能力强 ≠ 可信。
如果不知道模型内部怎么推理，就很难诊断错误、修正偏差、提高安全性。

摘要第 2 句

原文大意：
作者提出了第一个用于 VLM 的透明电路追踪框架，用来系统分析多模态推理。

翻译

本文提出了首个面向视觉语言模型的透明电路追踪框架，用于系统性分析模型的多模态推理过程。

人话解释

作者的野心是：
以前机制可解释性主要研究纯语言模型，现在他们要把“电路追踪”搬到 VLM 上。

所谓“透明电路追踪框架”，就是建立一套方法，把 VLM 内部看不见的计算过程变成可以观察、可以画图、可以干预的结构。

你该记什么

这一句对应论文的核心贡献 1：

把原来用于 LLM 的 circuit tracing 方法扩展到 VLM 场景。

摘要第 3 句

原文大意：
他们使用 transcoders、attribution graphs 和 attention-based methods，发现 VLM 如何分层整合视觉概念和语义概念。

翻译

通过使用代码转换器、归因图和基于注意力的方法，作者揭示了 VLM 如何以分层方式整合视觉概念和语义概念。

人话解释

这句话是全文方法的压缩版。

三个工具分别对应三件事：

工具	作用
Transcoder	把模型内部复杂激活拆成可解释特征
Attribution graph	追踪特征之间的因果影响路径
Attention-based methods	帮助解释图像 token 对应的视觉区域

“分层整合”是这篇论文的一个重要发现：
视觉和语言不是一进入模型就完全融合，而是在不同层逐步处理，到了较高层才形成更统一的多模态表示。论文摘要和引言都强调了这一点。(arXiv)

你该记什么

你可以把这一句理解成论文的方法公式：

Transcoder 拆特征 → Attribution graph 画路径 → Attention 分析视觉区域 → 得到 VLM 的内部推理电路。

摘要第 4 句

原文大意：
他们发现，不同的视觉特征电路可以处理数学推理，也支持跨模态关联。

翻译

研究发现，模型内部存在不同的视觉特征电路，这些电路不仅能够处理数学推理，还能够支持视觉与语言之间的跨模态关联。

人话解释

这个地方非常适合你在 PPT 里讲成“论文最有意思的发现”。

比如模型看到图片里的 “1 + 2 = ?”，它不只是把图片转成文字再算，而是内部可能存在和数字、结果相关的视觉特征路径。

再比如看到火星图片，模型内部可能会激活“航天飞机”等相关概念，说明视觉特征和语义知识之间有内部关联。论文在引言里把 visual math reasoning、six finger hallucination、Mars and Space Shuttle 作为代表案例。(arXiv)

你该记什么

你可以说：

这说明 VLM 内部并不是简单地“看图—转文字—回答”，而可能存在专门的视觉推理路径和跨模态关联路径。

摘要第 5 句

原文大意：
通过 feature steering 和 circuit patching 验证后，作者证明这些电路具有因果性和可控性。

翻译

通过特征引导和电路修补实验，作者验证了这些电路不仅是相关现象，而且具有因果作用，并且可以被控制。

人话解释

这句话是摘要里最关键的“可信度加分点”。

很多可解释性研究的问题是：
你画出来的解释图，可能只是事后解释，不一定真的控制了模型输出。

但这篇论文说，我不只是观察，我还做干预：

把某个特征增强，看输出是否变强；
把某个电路移植到另一个输入上，看模型是否产生相应变化。

如果改内部特征会导致输出变化，就说明这个特征/电路对结果真的有因果影响。论文明确把 steering 和 circuit patching 作为 intervention with multimodal circuits 的方式。(arXiv)

你该记什么

你 PPT 里一定要强调：

这篇论文的解释不是停留在“可视化相关性”，而是进一步通过干预实验验证因果性。

这句话会显得你真的读懂了一点。

四、引言部分逐段读

引言第 1 段：VLM 很强，但问题是我们不知道它内部怎么工作

翻译

视觉语言模型的发展改变了机器理解和推理多模态信息的方式。CLIP、Flamingo、LLaVA、GPT-4o 等模型在视觉问答、图像描述、复杂视觉推理、具身智能等任务中表现出很强能力。它们可以把视觉感知和语言理解结合起来，回答图像相关问题，生成图像描述，甚至完成需要跨模态协调的多步推理。尽管这些模型取得了很好的经验效果，一个关键问题仍然没有解决：这些模型内部到底是如何工作的？(arXiv)

人话解释

这一段是标准论文开头，但不是废话。它做了三件事：

说明 VLM 已经很强；
举例说明 VLM 能做什么；
转折到核心问题：强归强，但我们不知道它内部怎么推理。

你读的时候不要被 CLIP、Flamingo、LLaVA、GPT-4o 吓到。你只要知道它们都是代表性 VLM。

你该怎么讲

你汇报时可以这样说：

引言首先指出，VLM 已经可以完成视觉问答、图像描述和复杂视觉推理，但这些能力主要是从外部任务表现上观察到的。论文真正关心的是内部机制：模型到底如何把视觉信息和语言信息组织起来，并形成最终回答？

引言第 2 段：为什么理解内部机制很重要

翻译

理解 VLM 的工作机制对于构建可信、可控的 AI 很重要。虽然这些模型已经用于医学影像、自动驾驶、内容审核等高风险场景，但它们的决策过程仍然不透明。这种缺乏可解释性的问题，使得研究者很难诊断错误、减少偏见，也难以确保模型与人类价值对齐。同时，它也限制了科学理解：如果能够逆向工程模型内部机制，就可以揭示视觉和语言如何交互，并指导设计更强、更高效的模型架构。(arXiv)

人话解释

这一段是在回答“为什么要研究可解释性”。

因为 VLM 不透明会带来两个问题：

第一是应用风险。
比如医疗、自动驾驶、内容审核，如果模型错了，你必须知道它为什么错。

第二是科学问题。
我们不只是想用模型，还想知道模型到底学到了什么、内部怎么组织知识。

你该怎么讲

这一段你可以压缩成一句：

研究 VLM 内部机制既有应用意义，也有科学意义：前者关系到错误诊断和安全控制，后者关系到我们能否理解视觉与语言在模型内部如何交互。

引言第 3 段：现有方法不够，因为大多研究纯文本模型

翻译

近期可解释性研究已经开始揭示语言模型内部的算法，例如注意力可视化、探针分析和电路发现。但是，这些方法几乎都集中在纯文本模型上。VLM 面临更深层的挑战：它必须整合两种统计特征和语义结构都不同的模态，同时还要发现有意义的视觉—语言对应关系。VLM 如何把视觉特征绑定到文本 token 上，如何实现跨模态推理，如何协调视觉注意力和语言注意力，目前仍然很不清楚。因此，相比单一文本模型或早期视觉可解释性研究，VLM 的可解释性是一个更复杂的前沿问题。(arXiv)

人话解释

这一段是论文的“研究空白”。

以前的机制可解释性主要研究 LLM，比如模型为什么会续写某个词、为什么能做某类语言任务。
但 VLM 多了图片，所以难点变成：

图片 token 怎么和文字 token 对齐？
模型在哪一层开始融合视觉和语言？
模型回答时到底依赖图片，还是依赖语言先验？
错误答案是视觉错了，还是语言推理错了？

你该怎么讲

你可以这样表达：

这篇论文的研究空白在于：已有机制可解释性主要面向纯文本 LLM，而 VLM 涉及视觉 token 与文本 token 的绑定、融合和推理，因此不能简单套用原来的方法。

这句话很重要，老师会觉得你不是只在复述摘要。

引言第 4 段：本文提出什么方法

翻译

本文提出了第一个成功用于 VLM 的电路追踪框架，使研究者能够系统分析多模态推理背后的内部计算机制。作者的方法建立在近期语言模型可解释性研究基础上，具体来说，利用 transcoders 将神经表示分解为可解释特征，并结合基于归因的电路发现方法，映射特征之间的因果关系。作者称自己是第一个将这些技术扩展到多模态场景的工作。通过这样做，他们处理了视觉语言融合带来的独特挑战，并提出了新的方法来追踪信息如何从视觉输入开始，经过模型推理过程，最终影响输出。(arXiv)

人话解释

这一段就是论文的“方法总述”。

你可以把它理解成：

作者把 LLM 里的机制可解释性工具，改造成可以分析 VLM 的工具。

这不是从零发明所有东西，而是“迁移 + 适配 + 扩展”。
它的创新点不一定是每个组件全新，而是第一次把这些组件组合起来，用于 VLM 的内部电路追踪。

你该怎么讲

这段可以变成 PPT 里的“方法概览”：

方法上，作者将 LLM 机制可解释性中的 transcoder 和 attribution-based circuit discovery 扩展到 VLM，通过特征分解、归因图构建和视觉 token 解释，实现从图像输入到输出答案的内部路径追踪。

五、你现在先不要继续往下硬读，先记住这篇论文的“一句话版本”

你可以先背这个：

这篇论文研究如何打开视觉语言模型的黑箱。作者把语言模型机制可解释性中的 transcoder 和 attribution graph 扩展到 VLM，用来追踪图像和文本信息在模型内部如何流动、融合并影响输出。实验发现，VLM 的视觉与语义信息是在较高层逐步融合的，并且模型内部存在可被干预验证的视觉推理电路，例如视觉数学推理、六指幻觉和火星—航天飞机关联等案例。

这个版本足够你作为汇报开场。

六、下一步我们怎么读

你这篇论文不用一次读完。最适合的顺序是：

第 1 轮：只读摘要 + 引言 + 图 1 + 结论
目标：知道它讲什么。

第 2 轮：读 Section 3 方法
目标：弄懂 transcoder、attribution graph、feature interpretation 三个组件分别干什么。

第 3 轮：读实验案例
目标：挑 2 个最好讲的案例放 PPT：
一个讲“视觉数学推理”，一个讲“六指幻觉”。

第 4 轮：再回头看公式
目标：不是推导，而是知道每个公式在干什么。

下一步我建议直接读 Section 3.1 Transcoders。这部分是你 PPT 里最需要改得专业一点的地方，因为它有公式，也最容易体现“我不是全靠 AI 总结”。

对，你现在已经懂了第一层：这篇论文是在打开 VLM 黑箱。
第二层要懂的是：它到底怎么打开？怎么把一堆看不懂的模型激活，变成一张可以解释的“电路图”？

我按“从输入到输出”的真实流程讲。

0. 先给你一句总公式

这篇论文的方法可以压缩成一句话：

把 VLM 每层 MLP 里的复杂激活，用 transcoder 翻译成稀疏特征；再用 attribution graph 计算这些特征之间谁影响谁；最后用 feature steering 和 circuit patching 改特征，验证这些路径是不是因果路径。

也就是：

原始 VLM 黑箱 → 转码器翻译特征 → 归因图连接特征 → 人工解释电路 → 干预验证因果

论文自己也把框架分成 transcoders、attribution graphs、feature interpretation、circuit discovery、intervention/steering 几个部分。(arXiv)

1. 先理解 VLM 内部到底有什么

你现在先不要想公式，先想模型结构。

一个 VLM 接收两类输入：

图片
图片会先经过视觉编码器，比如 SigLIP，把图片切成很多视觉 token。
文字 prompt
比如用户问：“What is shown in the image?”

然后图片 token 和文字 token 会一起送进语言模型部分，也就是 Transformer decoder。

这篇论文用的是 Gemma-3-4B-it。论文说，Gemma-3-4B-it 用 SigLIP 视觉编码器处理图像，再把图像 token 和文本 token 拼接后送进 transformer decoder；它有 34 层 transformer，隐藏维度是 2560，MLP 维度是 10240。

你可以理解为：

图片 → 视觉编码器 → 图像 token
文字 → 文本 token
图像 token + 文本 token → 语言模型 → 输出答案

问题是：
中间 34 层 Transformer 里每一层都在做复杂计算，我们人看不懂。

所以论文要做的就是：

不直接看原始神经元，而是先把每层 MLP 的内部表示翻译成“可解释特征”。

2. 第一块核心：Transcoder 是怎么实现“翻译”的？

2.1 为什么需要 Transcoder？

模型内部的原始激活是一个很长的向量。

比如某一层 MLP 的输入是：

x = [0.12, -0.88, 1.43, 0.03, ...]

这东西对人没有意义。你不知道第 238 维代表“海獭”，还是“毛茸茸”，还是“图片左上角”。

更麻烦的是，神经元常常是 polysemantic 的，也就是一个神经元可能同时响应很多无关概念。论文相关工作部分说，神经表示常常是 polysemantic，SAE 和 transcoder 的目标就是恢复更可解释、更接近单一语义的特征。(arXiv)

所以 transcoder 的任务是：

把原来混杂的 MLP 激活，拆成很多稀疏的、相对单一语义的特征。

比如原来一团向量里混着这些东西：

[动物信息 + 水面信息 + 数字信息 + 语法信息 + 图片区域信息 + 输出倾向]

transcoder 希望拆成：

feature 1023：海獭
feature 2881：水中动物
feature 5302：数字 3
feature 9120：火星
feature 1177：航天飞机

当然，真实情况没这么干净，但这是它的目标。

2.2 Transcoder 和普通 SAE 有什么区别？

论文这里有一个关键点。

普通 SAE 是：

给我一个模型激活，我学习把这个激活重建回来。

也就是：

activation → sparse features → reconstruct activation

Transcoder 更进一步，它不是只重建原始激活，而是模仿一个 MLP 子层的输入输出行为。

也就是：

MLP 输入 x → sparse features → 近似 MLP 输出

论文说，SAE 是直接重建 transformer activations，而 transcoder 是替换 transformer 的 MLP 子层，在保持计算等价的同时让分析进入 feature-level。(arXiv)

你可以这么理解：

普通 SAE 像“翻译一段话”；
Transcoder 像“替代一个加工机器”。

原始 MLP 是黑箱机器：

输入 x → 原始 MLP → 输出 y

现在训练一个 transcoder，让它尽量做到：

输入 x → transcoder → 输出 y_hat ≈ y

如果 y_hat 和 y 很接近，就说明 transcoder 可以近似替代原来的 MLP。这样模型内部就从“黑箱 MLP”变成了“由稀疏特征组成的可分析模块”。

3. Transcoder 的公式到底在干什么？

论文的公式其实不难，你只要知道每个符号的作用。

3.1 编码器：把输入 x 变成稀疏特征 z

论文公式是：

z(x) = ReLU(W_enc x + b_enc)

论文说 encoder 把 MLP 输入 x 映射到 learned latent features。(arXiv)

大白话：

输入 x 原来是模型的一段内部表示，编码器把它变成一组特征激活 z。

比如：

x：模型内部原始向量

z：
feature 1 = 0
feature 2 = 3.8
feature 3 = 0
feature 4 = 1.2
feature 5 = 0
...

ReLU 的作用是：
小于 0 的变成 0，大于 0 的保留。

所以很多特征会变成 0。

这就有了“稀疏性”的基础。

3.2 Top-K：只保留最强的 k 个特征

论文说，它不像原始 transcoder 那样用 L1 penalty，而是直接用 TopK，只保留最大的 k 个激活；这样训练更稳定。论文实验里 k 取 48。(arXiv)

大白话：

每次模型经过这一层时，可能有几万个候选特征，但作者只保留最强的 48 个。

比如原来 z 里面有：

海獭 = 9.1
水面 = 7.3
毛茸茸 = 6.8
动物 = 6.1
咖啡杯 = 0.2
汽车 = 0.1
...

Top-K 后只留下最相关的一小批。

这就像你写论文摘要，不能把所有细节都写进去，只保留最重要的关键词。

为什么这重要？

因为如果所有特征都激活，图会乱成毛线。
只有稀疏，后面才能画出可解释电路。

3.3 解码器：把稀疏特征还原成 MLP 输出

论文公式是：

TC(x) = W_dec z(x) + b_dec

大白话：

解码器把这些稀疏特征重新组合，生成一个近似原始 MLP 输出的结果。

也就是：

原始 MLP：x → MLP(x)
Transcoder：x → z(x) → TC(x)

希望：TC(x) ≈ MLP(x)

这一步很关键，因为作者不是只想解释模型，还想让 transcoder 替代 MLP 后，模型功能不要崩。

论文说，训练完每个 MLP block 的 transcoder 后，他们构造 replacement model，用对应 transcoder 替代每个 MLP，使网络表达为 sparse learned latent features。(arXiv)

3.4 FVU：衡量 transcoder 还原得像不像

论文用 FVU 来衡量重建质量：

FVU = MSE / Var(y)

你不用会推导，只记意思：

FVU 越低，说明 transcoder 越像原来的 MLP。

MSE 是预测误差。
Var(y) 是原始输出本身的变化程度。

如果 FVU 很小，说明：

TC(x) 和 MLP(x) 很接近

也就是 transcoder 替代 MLP 不会严重破坏模型。

论文明确说，y 是原始 MLP 输出，y_hat 是 TC(x)，训练最小化 reconstruction error，稀疏性由 k 控制。(arXiv)

3.5 残差 e(x)：承认 transcoder 不可能完美

论文还有一个公式：

e(x) = MLP(x) - TC(x)

这是什么意思？

就是：

原始 MLP 输出减去 transcoder 输出，剩下的误差单独记录。

为什么要这样做？

因为 transcoder 只是近似，不可能 100% 等于原始 MLP。
如果不记录这个误差，后面的归因图可能会把一些解释遗漏掉。

论文说，他们把 reconstruction residual 作为 circuit graph 里的 separate error node，用来处理近似误差。(arXiv)

你可以讲成：

作者没有假装 transcoder 完美替代 MLP，而是把近似误差显式加入图中，避免后续因果分析被重建误差污染。

这句话很专业，适合放 PPT。

4. 第二块核心：Attribution Graph 怎么把特征连成“电路”？

现在你已经有了一堆特征，比如：

第 10 层：图片中的红色特征
第 15 层：数字 3 特征
第 20 层：火星视觉特征
第 25 层：航天飞机语义特征
输出层：Mars / otter / five / three

但光有特征还不够。
你还要知道：

哪个特征影响了哪个特征？哪个特征最终推动了输出？

这就是 attribution graph。

4.1 Attribution Graph 是什么？

论文说，每个节点可以是 token embedding、某个 layer-position 上的 active transcoder feature，或者 output logit；边的权重是 attribution。(arXiv)

翻成人话：

图里的节点有三类：

输入节点：图片 token、文本 token
中间节点：某一层某个位置的特征
输出节点：最终候选词的 logit，比如 "otter"、"five"

边表示：

这个节点对另一个节点有多大影响

比如：

海獭视觉特征 → 水中动物特征 → otter 输出

如果边很粗，说明影响大。
如果边很细，说明影响小。
如果影响小到低于阈值，就剪掉。

论文说，他们构造完整有向归因图，然后剪掉 attribution 很小的边，得到 sparse, interpretable graph。(arXiv)

4.2 归因值公式是什么意思？

论文公式：

A_s→t = a_s w_s→t

你只记一句：

一个源特征对目标特征的影响 = 源特征自己有多强 × 它通向目标特征的连接有多强。

其中：

a_s 是源节点激活值；
w_s→t 是虚拟权重，也就是在当前输入附近，源节点变化会如何影响目标节点。

论文说，w_s→t 是目标节点预激活值对源节点激活值的局部导数。(arXiv)

大白话：

如果“海獭特征”本身激活很强，
而且它对 “otter 输出” 的影响通路也很强，
那它的归因值就大。

反过来：

如果一个特征激活很强，但和最终答案没啥关系，归因值不一定大。
如果一个通路理论上很强，但源特征根本没激活，归因值也不大。

所以这个公式非常合理：

影响力 = 自己出现得强不强 × 对目标推动力强不强

4.3 为什么它能算？靠“局部线性化”

这是这篇论文最难但最关键的原理之一。

VLM 是非线性的，按理说很难直接说“谁影响谁”。

论文的做法是：

对一个固定 prompt，把 ReLU、attention pattern、normalization factors 这些非线性东西固定在当前输入的值上，于是模型在这个输入附近就可以近似看成线性系统。

论文原文说，因为 transcoder 用稀疏线性 readout 替代 MLP，并且所有非线性被冻结在给定 prompt 上，模型在该输入附近变成 locally linear。(arXiv)

这句话很抽象，我用比喻讲：

模型像一条复杂山路，有很多弯。
全局来看，它不是直线。
但如果你只看你脚下这一小段路，它近似是直的。

所以对于某一个具体输入：

这张图片 + 这个问题

作者暂时冻结模型内部的非线性状态，把它看成局部线性。
这样就能算出：

某个特征增加一点，会对后面特征/输出产生多大影响

这就是 attribution graph 的数学基础。

5. 第三块核心：Feature Interpretation 怎么知道某个特征是什么意思？

现在图里有很多节点，但节点名可能是：

layer 18, position 42, feature 123456

这对人还是没意义。

所以需要解释特征。

论文用了两种主要办法：

5.1 Feature activation analysis：看哪些样本最能激活这个特征

论文说，为了理解每个 transcoder feature，他们在大量视觉语言输入中分析激活模式。对每个特征，收集 top-k activating examples，也就是最能激活该特征的图文对，然后观察共同点。(arXiv)

大白话：

想知道一个特征代表什么，就找最能点亮它的样本。

比如某个 feature 在这些样本里最强：

海獭图片 + "What animal is this?"
水中海獭图片 + "Describe the animal"
毛茸茸动物浮在水面上的图片

那人工观察后就可以标注：

这个 feature 可能代表“海獭/水中毛茸茸动物”

如果某个 feature 总是在数学图片里激活：

1 + 2 =
three objects
坐标轴上有 3 个点

那它可能和 “3 / 数量三” 有关。

5.2 Attention map：图像 token 不好解释，所以看它关注图片哪里

文本 token 比较好解释，因为你知道单词是什么。
但图像 token 很难解释，因为一个图像 token 对应图片区域。

所以论文对视觉编码器做 attention rollout，生成 heatmap，看某个视觉 token 主要关注图片哪些区域。论文说，Gemma 3 的 SigLIP vision encoder 会把 896×896 图像处理成 256 个视觉 token，再输入语言模型；作者计算 attention-rollout maps，用灰度热力图显示 vision tower 最关注的图像区域。(arXiv)

大白话：

如果一个特征说自己和“手指数量”有关，那它应该关注手指区域，而不是背景墙。

所以 attention map 是用来辅助判断：

这个特征到底是不是在看我们以为它在看的地方？

6. 第四块核心：Circuit Discovery 怎么从大图变成小图？

归因图一开始很大，里面有很多节点和边。

但人类不可能看完所有节点。
所以作者要做 circuit discovery，也就是找出最关键的子图。

论文说，circuit 是对给定输入解释模型 output logits 的 computational graph 的抽象表示；他们会把功能相似的特征分组为共享节点，得到简化图。并且当前工作使用 human experts 来发现和标注 circuits，因为人工标注仍然最准确、最可解释。

这点你要注意：
这篇论文不是全自动解释。

它有一个“人工专家解释”的环节：

自动生成 attribution graph
↓
人看 top activating examples 和 attention maps
↓
人工归纳节点含义
↓
人工整理出最终 circuit

这也是你可以在 Limitations 里写的点：

该框架仍依赖人工专家解释和标注电路，因此自动化程度有限，扩展到更大模型和更多任务时可能面临成本问题。

7. 第五块核心：Intervention / Steering 怎么证明不是“瞎解释”？

这是第二层里最重要的逻辑。

很多解释方法只是在模型输出后画热力图。
但热力图不一定有因果意义。

这篇论文做了干预：

7.1 Feature steering：直接改某个特征

论文说，为了研究某个 transcoder feature 如何影响模型行为，他们在 forward pass 期间直接修改 feature activation，然后观察模型输出变化。

大白话：

如果我觉得某个特征代表“火星”，那我就人为增强它，看看模型是不是更倾向输出 Mars。

或者：

如果我觉得某个特征导致“六指被说成五指”，那我就压低它，看看模型是否更可能输出 six。

这一步就是在问：

你这个特征到底只是相关，还是能真的改变模型输出？

7.2 Circuit patching：把一条电路移植到另一个输入里

论文说，circuit patching 是在前向传播中直接覆盖选定的内部激活，或者把一个电路的整个子电路移植到另一个电路中，看输出是否复现相似行为。

大白话：

把 A 输入里发现的“火星电路”，复制到 B 输入的模型运行中，看 B 是否也表现出火星相关输出倾向。

这就像：

原本图片：地球
原本输出：Earth

把 Mars 电路 patch 进去
观察输出是否更偏向 Mars

如果真的变了，说明这个电路不是作者脑补出来的，而是对输出有实质影响。

8. 把整篇方法连起来：它到底怎么跑一遍？

你可以想象作者拿一张图和一句 prompt，比如：

图片：火星
问题：What planet is this?

完整流程如下：

第一步：正常跑 Gemma-3-4B-it

模型先处理图片和文本，产生答案。

Mars

同时缓存每一层 MLP 的输入输出和激活。

第二步：用 transcoder 替代每层 MLP

每层 MLP 都训练一个 transcoder：

MLP_l(x) ≈ TC_l(x)

于是原本黑箱 MLP 变成：

输入 x → 稀疏特征 z → 重建输出

这时候模型内部就不再只是不可解释的 dense activation，而是一堆 sparse features。

第三步：找出当前输入激活了哪些特征

比如：

低层：圆形红色星球视觉特征
中层：火星表面纹理特征
高层：Mars 语义特征
高层：space shuttle 关联特征
输出：Mars logit

第四步：计算 attribution graph

对每个激活特征，计算：

它影响了哪些后续特征？
影响强度是多少？
它最后对 Mars 输出贡献多大？

得到一张大图。

第五步：剪枝

把贡献很小的边删掉，只保留主要路径：

火星视觉特征 → 红色星球特征 → Mars 语义特征 → Mars 输出

或者：

Mars 视觉特征 → space shuttle 关联特征

第六步：解释节点

通过 top activating examples 和 attention maps，人工判断每个节点代表什么。

第七步：干预验证

增强/抑制某些节点，或者把电路 patch 到其他输入里。

如果输出随之变化，就说明这条电路有因果作用。

9. 你最该理解的“原理层”不是公式，而是这三个思想

思想 1：把神经元换成“特征”

普通人看不懂单个神经元。
论文不直接解释神经元，而是训练 transcoder，把混杂激活拆成更容易解释的 feature。

这就是从：

神经元级别解释

变成：

特征级别解释

思想 2：把一次模型运行局部线性化

模型整体很非线性。
但对某个具体输入，可以冻结非线性部分，把它近似成线性系统。

这样就能算：

feature A 对 feature B 的贡献
feature B 对输出 token 的贡献

这是 attribution graph 能成立的基础。

思想 3：解释必须通过干预验证

只看相关性不够。
必须改内部特征，看输出是否改变。

所以这篇论文比普通 attention heatmap 更强的地方在于：

它试图从“可视化解释”走向“因果解释”。

10. 这篇论文你可以怎么讲得像自己懂了？

你汇报时不要说“本文提出了一个框架，具有重要意义”这种空话。
你可以说这段：

我理解这篇论文的关键，不是简单地给 VLM 画注意力热力图，而是把模型内部 MLP 的 dense activation 先通过 transcoder 转换成 sparse features。这样，模型内部的计算就可以被表示为特征之间的相互作用。随后作者在固定输入下冻结非线性部分，将模型局部线性化，用 attribution graph 计算特征之间的影响路径。最后再通过 steering 和 circuit patching 改变特征激活，验证这些路径是否真的能改变输出。因此，这篇论文的解释逻辑是“特征分解—路径归因—因果干预”，比单纯的事后可视化更接近机制解释。

这段你可以直接放到 PPT 或讲稿里。

11. 你现在读论文时该重点看哪几页？

你不要整篇平均用力。

现在优先看：

Section 3.1 Transcoders
只看公式 1、2、3、4，理解“输入 → 稀疏特征 → 近似 MLP 输出 → 残差”。
Section 3.2 Attribution Graphs
只看公式 5，理解“归因 = 激活强度 × 虚拟权重”。
Section 3.3 Feature Interpretation and Attention Analysis
理解怎么给特征命名：top activating examples + attention maps。
Section 3.5 Intervention and Steering
理解怎么验证因果：改特征，看输出变不变。

你现在不需要硬啃所有参考文献，也不需要把 Jacobian 推导搞明白。你只要能讲清楚：

为什么需要 transcoder？
为什么要 attribution graph？
为什么要 intervention？

就已经超过大部分“AI 生成 PPT”的水平了。