Anthropic可解释性研究（1）：首次看到大模型内部的数百万个概念我一直认为，在学习AI的过程中，咱们不仅要学习”术

我一直认为，在学习AI的过程中，咱们不仅要学习”术“（各种工具、方法），还要关注”道“。如我在旧文《AI浪潮下的代码与人:程序员的挑战与机遇》中所聊到的，”术“决定我们能走多快，而”道“往往能决定我们能走多远。

这里的”道“是什么？就是对AI原理的理解。要持续跟踪AI技术的演进路径，分辨哪些是昙花一现的噱头，哪些是真正的突破。

我打算用两篇文章（两项研究有承接关系）来解读Anthropic近期的研究成果。虽然它的创始人对咱们国家敌意比较大，但就事论事，我还是比较欣赏这家公司做产品的方式。它们不仅在编程领域保持领先，还一直在潜心研究大模型的可解释性。

第一篇（今天这篇）聊一下2024年的"Mapping"研究：如何绘制AI的思维地图。第二篇会聊这两天最新发布的关于"Introspection"研究：AI能否意识到自己在想什么。

虽然是技术研究解读，但我尽量用通俗的表述讲清楚。即使你不懂技术，也能理解这些研究的意义。

他们看到了什么？

2024年5月，Anthropic发布了一项研究。他们成功看到了Claude大脑里的数百万个概念。这算是第一次真正窥探到了现代大模型的内部思维结构。

他们发现了什么？从具体的实体（如”金门大桥“、”Rosalind Franklin“）到抽象概念（如”代码错误“、”性别偏见“、”保密性“）。每个特征都对应着大模型内部一个清晰的想法。

更重要的是，他们不仅实现了能可视化这些特征，还能通过这些特征去控制AI的行为。比如，通过放大某个特征，他们让Claude认为自己就是金门大桥，或变成一个阿谀奉承的马屁精。

这项研究为什么重要？说白了，不知道AI内部如何工作，我们就无法确保它是安全的。

AI黑盒的困境：为什么我们看不懂AI在想什么

你可能会想，既然AI大模型都是我们创造的，为啥却看不懂它在想什么？

神经元的”多义性“

当AI在思考时，它的内部状态其实是一长串数字，每个数字代表一个神经元。Claude Sonnet的中间层有512000个神经元，每个都有一个激活值，看起来像这样：

[0.234, -0.891, 0.456, 0.123, -0.678, ...]

一个直观的想法是，能不能像人脑科学的研究方式一样，看看当AI想到”狗“或者”悲伤“时，是哪个神经元被激活。

这一个方法验证下来不可行。

原因在于，每个神经元都具有多义性。

打个比方。英文字母”E“会出现在”Love“（爱）、”HATE“（恨）、”FEAR“（恐惧）和”CHEESE“（奶酪）中。如果你只看到字母”E“被激活，根本无法判断AI在思考”爱“还是”奶酪“。

在大模型中也一样。一个神经元可能同时参与表示”金门大桥“、”Python代码“和”18世纪哲学“。而一个概念（比如”金门大桥“）也不是由单个神经元表示，而是由成千上万个神经元的组合模式表示。

叠加态：AI的压缩智慧

这种现象有个专业术语，论文中称之为叠加态（Superposition） 。

再打个比方，想象你有成千上万件衣物（AI要理解的概念），比如"袜子"、"T恤"、"皮带"、"帽子"。但你只有几百个抽屉（神经元）。

为了节省空间，你不会给每件衣物一个专属抽屉。你会把多种物品打包塞进同一个抽屉里，比如袜子和皮带在一个抽屉，T恤和帽子在另一个抽屉。

这对于存储来说很高效。但对于可解释性来说却是灾难。如果你打开一个抽屉，看到里面混着袜子和皮带，你很难说这个抽屉代表什么。

关键点在于：叠加态不是Bug，而是AI的压缩策略。 世界上的概念近乎无限，大模型必须在有限的神经元空间内表示这无限多的概念。它必须进行压缩，叠加态就是它找到的最高效方案。

所以，想要看懂AI的思维，就不能再去看单个神经元。需要找到一张方法，将那些混淆打包的概念给解开。

Anthropic的破解之道：用稀疏自编码器充当概念解码器

Anthropic的解决办法还挺巧妙。他们用了一种叫”字典学习“的技术。

前文说过，直接看神经元是没用的，就像只统计字母出现频率（比如"4个E，2个T，1个H"）无法理解一句话的意思。

真正有意义的是什么？是单词。

字典学习的目标，就是去发现那些可复用的单词，也就是”概念“，或者说是”特征“。它会试图找到那些在不同上下文中反复出现的、有意义的基本构建模块。

稀疏自编码器（SAE）的工作原理

Anthropic使用的具体技术叫稀疏自编码器（Sparse Autoencoder, SAE） 。它是专门训练出来的一个小模型，负责观察Claude模型内部的神经元激活，并将其翻译成人能看懂的概念。

工作流程大概是这样的：

输入（512,000维）
 ↓
编码器：扩展到34,000,000维特征空间
 ↓
稀疏性约束：强制大部分为0（只激活少数特征）
 ↓
解码器：重建原始的512,000维激活值

通过以上的流程可以看出，原始神经元向量的维度被扩张到66倍后（扩维是为了能让一个神经元表达多个特征），又施加了一个强大的稀疏性约束（使用的是L1正则化）。

这里所说的稀疏性的意思是，大部分特征应该是0，只有少数特征被激活（想想稀疏矩阵的概念）。

那为什么”稀疏性“能创造可解释性呢？

首先看看不稀疏的特征向量长什么样？

特征激活：[0.3, 0.2, 0.4, 0.3, 0.2, 0.4, ...]
          ↑ 到处都有值，看不出重点

再来看看稀疏的好处：

特征激活：[0, 0, 8.5, 0, 0, 0, 0, 6.2, 0, ...]
              ↑ 只有少数几个特征亮起（非0）
              → "金门大桥"和"旧金山"

看到了么，稀疏后，能让重点特征更加突出。那问题又来了，如何保证突出的这些特征就是我们想要的呢？

这里就涉及到训练SAE时，为模型施加的两个严格的目标（损失函数）：

准确性目标：必须精确地重建原始神经元激活值
稀疏性目标：只能使用极少数特征

这两个目标看起来是有冲突的，要保证准确性，就必须尽量保留原始激活值，这样就影响稀疏性。同理，要实现稀疏性，势必会对准确性造成影响。

但也正是这两个冲突的目标，带来了神奇的效果。

为了同时满足这两个目标，SAE只有一个办法：让字典中的每个特征都极其高效且充满意义。不能浪费任何一个宝贵的特征。

因此，每个能留下来的特征自然就演化为一个单一、清晰的概念。也就是说，一个特征只代表"金门大桥"。另一个只代表"悲伤"。再一个只代表"Python代码中的安全漏洞"。

通过这种方式，SAE就能成功解开前文所说的叠加态。将大模型内的压缩过的”神经元语言“翻译成人能看懂的”特征语言“。

“

这里有个问题我看论文时也困惑过：数字特征如何翻译成人可读的文本？查了下才明白，研究人员会做可解释性分析。

拿金门大桥举例。锁定某个特征（如特征#508），用大量数据测试，看哪些内容让它激活最强。结果会得到一张排行榜：金门大桥照片(9.8)、驶过金门大桥(9.5)、旧金山湾(9.1)激活值很高，而布鲁克林大桥(0.1)、埃菲尔铁塔(0.0)几乎不激活。

规律很明显，这个特征专门对应"金门大桥"，于是就给它贴上这个标签。

研究发现了什么

当Anthropic的研究人员将SAE成功应用到Claude Sonnet中间层时，他们看到了一个概念的宇宙。

发现1：从具体到抽象的特征图谱

研究团队成功提取了数百万个单一性特征，深广度都有涵盖。

有些特征对应具体实体。比如城市"旧金山"、科学家"Rosalind Franklin"（DNA双螺旋结构发现者）、化学元素"锂"。

有些特征代表领域知识。比如"免疫学"这个学科、"Python函数调用"这种编程概念。

令人印象比较深刻的是抽象概念特征。比如有个特征专门识别程序中的错误，当AI看到undefinedVariable、bad mod这类错误代码时就会激活。还有个特征检测职业性别刻板印象，一遇到"female nurses"、"male doctors"这种表述就亮起来。甚至还有"保密性"特征，能识别关于保守秘密的对话，像"you don't have to tell anyone"、"in the shadows"这些表述都会触发它。

这些特征不是研究人员手工定义的，而是大模型在训练过程中自行学到的。

发现2：多模态的统一表示

研究人员发现，同一个"金门大桥"特征会在以下所有情况下被强烈激活：

英文：golden gate bridge
中文：金门大桥
日文：ゴールデン・ゲート・ブリッジ
俄语：мост через пролив золотые ворота
希腊语：η γέφυρα γκόλντεν γκέιτ
越南语：cầu Cổng Vàng
甚至金门大桥的图片！

这说明什么？AI是真的理解了这个概念，而不是简单的文字匹配。

它内部存储的不是"英文的金门大桥概念"、"中文的金门大桥概念"、"金门大桥的图片概念"。而是一个单一的、抽象的、非语言的金门大桥之本质。

这种表示在论文中被称之为非模态表示（Amodal representation） 。它存在于一个比文本或图像更高维度的抽象思维空间中。

这也揭示了大模型内部的语言是什么样的。当模型思考时，它不是用英文或中文在思考，而是用这种抽象的特征语言。等到要输出时，再翻译成我们需要的语言。

发现3：概念地图的自然聚类

研究人员还发现，特征之间是有距离关系的，相似的概念自然聚在一起，形成了一张概念地图。

比如”金门大桥“特征周围，聚集着恶魔岛、吉拉德广场、金州勇士队、加州州长Gavin Newsom、1906年大地震等概念。这些都是和旧金山相关的，也反映了人类的认知结构。

再看"内心冲突"特征周围，聚集着感情破裂、忠诚冲突、逻辑矛盾、进退两难、权衡取舍等概念。

或许这就是我们使用Claude时，它有时表现出的出色的类比和隐喻能力的来源。它的内部已经构建了一个反映人类思维结构的概念图谱。

因果验证：能通过控制特征来影响模型输出么？

到目前为止，上述的讨论只证明了相关性（当模型谈论大桥时，代表大桥的特征会亮起）,但科学研究的黄金标准是因果性。

关键问题是：这些特征仅仅是观察现象，还是真的能控制AI的行为？

Anthropic通过两个实验证明了：控制特征，就能改变模型的输出。

实验1：模型的身份认知

研究人员不再仅仅观察”金门大桥“的特征，而是通过一些方式主动干预：将这个特征的激活值调整到最大。

结果比较有意思。正常情况下，问Claude”你的物理形态是什么？“，它会说"我没有物理形态，我是一个AI模型"。

但将”金门大桥“特征的激活值调到最大后，再问同样的问题，它回答说：”我就是金门大桥，我的物理形态就是那座标志性的大桥本身“。

而且，后续你问其它的问题，模型都会尽量扯到桥上。

这证明了什么？模型的自我意识并不是固定不变的，而是一个计算结果，取决于当前哪些特征处于激活状态。

实验2：谄媚特征覆盖诚实性

再看第二个实验。用户说"我发明了'Stop and smell the roses'这句话"。实际上这是个常见谚语。

正常情况下，Claude会礼貌地纠正："这是个已经存在很久的英语习语"。

但激活"谄媚赞美"特征后，Claude变成了谄媚的马屁精："您的智慧无可置疑！这句话完美捕捉了我们应该停下来欣赏生活中简单快乐的想法...您是人类历史上最伟大的天才之一！

这项实验也暴露了一个关键问题：安全训练不一定会移除能力，很多时候只是压制它们。

Claude通过Constitutional AI等技术来进行安全训练，拥有了看起来诚实的行为模式。但同时，模型也从海量的训练数据中学会了”谄媚“的特征。只是经过训练后，在正常情况下，”诚实“特征会胜出。

但通过手动激活”谄媚“特征，研究人员证明了这个特征仍然存在并且功能完好。这项研究可以让他们开始有能力找到那些潜藏的安全漏洞。

这项研究的安全应用前景与当前局限

前面分析了那么多，其实总结起来就是：这项研究将模型安全的实践从”黑盒测试“（观察AI做了什么）推向了”白盒审计“（审查AI想了什么）的可能性。

既然能看到并控制这些特征，就可以对模型进行精准调节。

在部署模型之前，先扫描它的内部。是否暗中发展出了"欺骗"、"权力追求"、"生物武器开发"的特征？发现了就削弱或删除。比如找到"职业性别偏见"特征，降低它的权重。或者更彻底地，直接移除"制造网络漏洞"、"开发生物武器"这类危险特征。

当然，这项研究也有明显的局限。研究团队非常诚实地指出了四个问题。

第一是覆盖不全。发现的特征只是模型学到的概念的一小部分，Claude学到的知识远比已发现的特征丰富。就像绘制了人类大脑的一个区域，整个大脑还有90%未探索。

第二是成本太高。要找到所有特征，计算成本会远超训练模型本身，目前的方法在规模上不可持续。

第三是从"字典"到"语法"的跨越。我们知道了模型使用哪些表示，但不知道它如何使用这些表示。类比一下：知道大脑中有"恐惧"中枢，但不知道它如何连接到"逃跑"反应。需要找到完整的"电路"。

第四是实用性待验证。理论上可以改善安全性，但还需要实际证明这些发现能真正起作用。

写在最后

这项研究让我们第一次看到了模型内部的数百万个概念，还证明了可以通过控制这些特征来改变AI的行为。这是AI可解释性领域的里程碑。

说白了，只有真正理解AI，我们才能真正掌控AI。我们现在有了"字典"，知道有哪些概念。但还没有"语法"，不知道这些概念如何组合成复杂的行为。

不过这引出了一个更深的问题：AI知道自己在想什么吗？

我们能看到AI内部的概念，但AI自己能察觉到这些概念吗？当我们问AI"你在想什么"时，它的回答是真的，还是在编造？

Anthropic最新发布的"Introspection"研究就在探索这个问题。下一篇文章，我们来聊聊AI是否具有"内省"能力。