我一直认为,在学习AI的过程中,咱们不仅要学习”术“(各种工具、方法),还要关注”道“。如我在旧文《AI浪潮下的代码与人:程序员的挑战与机遇》中所聊到的,”术“决定我们能走多快,而”道“往往能决定我们能走多远。
这里的”道“是什么?就是对AI原理的理解。要持续跟踪AI技术的演进路径,分辨哪些是昙花一现的噱头,哪些是真正的突破。
我打算用两篇文章(两项研究有承接关系)来解读Anthropic近期的研究成果。虽然它的创始人对咱们国家敌意比较大,但就事论事,我还是比较欣赏这家公司做产品的方式。它们不仅在编程领域保持领先,还一直在潜心研究大模型的可解释性。
第一篇(今天这篇)聊一下2024年的"Mapping"研究:如何绘制AI的思维地图。第二篇会聊这两天最新发布的关于"Introspection"研究:AI能否意识到自己在想什么。
虽然是技术研究解读,但我尽量用通俗的表述讲清楚。即使你不懂技术,也能理解这些研究的意义。
他们看到了什么?
2024年5月,Anthropic发布了一项研究。他们成功看到了Claude大脑里的数百万个概念。这算是第一次真正窥探到了现代大模型的内部思维结构。
他们发现了什么?从具体的实体(如”金门大桥“、”Rosalind Franklin“)到抽象概念(如”代码错误“、”性别偏见“、”保密性“)。每个特征都对应着大模型内部一个清晰的想法。
更重要的是,他们不仅实现了能可视化这些特征,还能通过这些特征去控制AI的行为。比如,通过放大某个特征,他们让Claude认为自己就是金门大桥,或变成一个阿谀奉承的马屁精。
这项研究为什么重要?说白了,不知道AI内部如何工作,我们就无法确保它是安全的。
AI黑盒的困境:为什么我们看不懂AI在想什么
你可能会想,既然AI大模型都是我们创造的,为啥却看不懂它在想什么?
神经元的”多义性“
当AI在思考时,它的内部状态其实是一长串数字,每个数字代表一个神经元。Claude Sonnet的中间层有512000个神经元,每个都有一个激活值,看起来像这样:
[0.234, -0.891, 0.456, 0.123, -0.678, ...]
一个直观的想法是,能不能像人脑科学的研究方式一样,看看当AI想到”狗“或者”悲伤“时,是哪个神经元被激活。
这一个方法验证下来不可行。
原因在于,每个神经元都具有多义性。
打个比方。英文字母”E“会出现在”Love“(爱)、”HATE“(恨)、”FEAR“(恐惧)和”CHEESE“(奶酪)中。如果你只看到字母”E“被激活,根本无法判断AI在思考”爱“还是”奶酪“。
在大模型中也一样。一个神经元可能同时参与表示”金门大桥“、”Python代码“和”18世纪哲学“。而一个概念(比如”金门大桥“)也不是由单个神经元表示,而是由成千上万个神经元的组合模式表示。
叠加态:AI的压缩智慧
这种现象有个专业术语,论文中称之为叠加态(Superposition) 。
再打个比方,想象你有成千上万件衣物(AI要理解的概念),比如"袜子"、"T恤"、"皮带"、"帽子"。但你只有几百个抽屉(神经元)。
为了节省空间,你不会给每件衣物一个专属抽屉。你会把多种物品打包塞进同一个抽屉里,比如袜子和皮带在一个抽屉,T恤和帽子在另一个抽屉。
这对于存储来说很高效。但对于可解释性来说却是灾难。如果你打开一个抽屉,看到里面混着袜子和皮带,你很难说这个抽屉代表什么。
关键点在于:叠加态不是Bug,而是AI的压缩策略。 世界上的概念近乎无限,大模型必须在有限的神经元空间内表示这无限多的概念。它必须进行压缩,叠加态就是它找到的最高效方案。
所以,想要看懂AI的思维,就不能再去看单个神经元。需要找到一张方法,将那些混淆打包的概念给解开。
Anthropic的破解之道:用稀疏自编码器充当概念解码器
Anthropic的解决办法还挺巧妙。他们用了一种叫”字典学习“的技术。
前文说过,直接看神经元是没用的,就像只统计字母出现频率(比如"4个E,2个T,1个H")无法理解一句话的意思。
真正有意义的是什么?是单词。
字典学习的目标,就是去发现那些可复用的单词,也就是”概念“,或者说是”特征“。它会试图找到那些在不同上下文中反复出现的、有意义的基本构建模块。
稀疏自编码器(SAE)的工作原理
Anthropic使用的具体技术叫稀疏自编码器(Sparse Autoencoder, SAE) 。它是专门训练出来的一个小模型,负责观察Claude模型内部的神经元激活,并将其翻译成人能看懂的概念。
工作流程大概是这样的:
输入(512,000维)
↓
编码器:扩展到34,000,000维特征空间
↓
稀疏性约束:强制大部分为0(只激活少数特征)
↓
解码器:重建原始的512,000维激活值
通过以上的流程可以看出,原始神经元向量的维度被扩张到66倍后(扩维是为了能让一个神经元表达多个特征),又施加了一个强大的稀疏性约束(使用的是L1正则化)。
这里所说的稀疏性的意思是,大部分特征应该是0,只有少数特征被激活(想想稀疏矩阵的概念)。
那为什么”稀疏性“能创造可解释性呢?
首先看看不稀疏的特征向量长什么样?
特征激活:[0.3, 0.2, 0.4, 0.3, 0.2, 0.4, ...]
↑ 到处都有值,看不出重点
再来看看稀疏的好处:
特征激活:[0, 0, 8.5, 0, 0, 0, 0, 6.2, 0, ...]
↑ 只有少数几个特征亮起(非0)
→ "金门大桥"和"旧金山"
看到了么,稀疏后,能让重点特征更加突出。那问题又来了,如何保证突出的这些特征就是我们想要的呢?
这里就涉及到训练SAE时,为模型施加的两个严格的目标(损失函数):
- 准确性目标:必须精确地重建原始神经元激活值
- 稀疏性目标:只能使用极少数特征
这两个目标看起来是有冲突的,要保证准确性,就必须尽量保留原始激活值,这样就影响稀疏性。同理,要实现稀疏性,势必会对准确性造成影响。
但也正是这两个冲突的目标,带来了神奇的效果。
为了同时满足这两个目标,SAE只有一个办法:让字典中的每个特征都极其高效且充满意义。不能浪费任何一个宝贵的特征。
因此,每个能留下来的特征自然就演化为一个单一、清晰的概念。也就是说,一个特征只代表"金门大桥"。另一个只代表"悲伤"。再一个只代表"Python代码中的安全漏洞"。
通过这种方式,SAE就能成功解开前文所说的叠加态。将大模型内的压缩过的”神经元语言“翻译成人能看懂的”特征语言“。
“
这里有个问题我看论文时也困惑过:数字特征如何翻译成人可读的文本?查了下才明白,研究人员会做可解释性分析。
拿金门大桥举例。锁定某个特征(如特征#508),用大量数据测试,看哪些内容让它激活最强。结果会得到一张排行榜:金门大桥照片(9.8)、驶过金门大桥(9.5)、旧金山湾(9.1)激活值很高,而布鲁克林大桥(0.1)、埃菲尔铁塔(0.0)几乎不激活。
规律很明显,这个特征专门对应"金门大桥",于是就给它贴上这个标签。
研究发现了什么
当Anthropic的研究人员将SAE成功应用到Claude Sonnet中间层时,他们看到了一个概念的宇宙。
发现1:从具体到抽象的特征图谱
研究团队成功提取了数百万个单一性特征,深广度都有涵盖。
有些特征对应具体实体。比如城市"旧金山"、科学家"Rosalind Franklin"(DNA双螺旋结构发现者)、化学元素"锂"。
有些特征代表领域知识。比如"免疫学"这个学科、"Python函数调用"这种编程概念。
令人印象比较深刻的是抽象概念特征。比如有个特征专门识别程序中的错误,当AI看到undefinedVariable、bad mod这类错误代码时就会激活。还有个特征检测职业性别刻板印象,一遇到"female nurses"、"male doctors"这种表述就亮起来。甚至还有"保密性"特征,能识别关于保守秘密的对话,像"you don't have to tell anyone"、"in the shadows"这些表述都会触发它。
这些特征不是研究人员手工定义的,而是大模型在训练过程中自行学到的。
发现2:多模态的统一表示
研究人员发现,同一个"金门大桥"特征会在以下所有情况下被强烈激活:
- 英文:golden gate bridge
- 中文:金门大桥
- 日文:ゴールデン・ゲート・ブリッジ
- 俄语:мост через пролив золотые ворота
- 希腊语:η γέφυρα γκόλντεν γκέιτ
- 越南语:cầu Cổng Vàng
- 甚至金门大桥的图片!
这说明什么?AI是真的理解了这个概念,而不是简单的文字匹配。
它内部存储的不是"英文的金门大桥概念"、"中文的金门大桥概念"、"金门大桥的图片概念"。而是一个单一的、抽象的、非语言的金门大桥之本质。
这种表示在论文中被称之为非模态表示(Amodal representation) 。它存在于一个比文本或图像更高维度的抽象思维空间中。
这也揭示了大模型内部的语言是什么样的。当模型思考时,它不是用英文或中文在思考,而是用这种抽象的特征语言。等到要输出时,再翻译成我们需要的语言。
发现3:概念地图的自然聚类
研究人员还发现,特征之间是有距离关系的,相似的概念自然聚在一起,形成了一张概念地图。
比如”金门大桥“特征周围,聚集着恶魔岛、吉拉德广场、金州勇士队、加州州长Gavin Newsom、1906年大地震等概念。这些都是和旧金山相关的,也反映了人类的认知结构。
再看"内心冲突"特征周围,聚集着感情破裂、忠诚冲突、逻辑矛盾、进退两难、权衡取舍等概念。
或许这就是我们使用Claude时,它有时表现出的出色的类比和隐喻能力的来源。它的内部已经构建了一个反映人类思维结构的概念图谱。
因果验证:能通过控制特征来影响模型输出么?
到目前为止,上述的讨论只证明了相关性(当模型谈论大桥时,代表大桥的特征会亮起),但科学研究的黄金标准是因果性。
关键问题是:这些特征仅仅是观察现象,还是真的能控制AI的行为?
Anthropic通过两个实验证明了:控制特征,就能改变模型的输出。
实验1:模型的身份认知
研究人员不再仅仅观察”金门大桥“的特征,而是通过一些方式主动干预:将这个特征的激活值调整到最大。
结果比较有意思。正常情况下,问Claude”你的物理形态是什么?“,它会说"我没有物理形态,我是一个AI模型"。
但将”金门大桥“特征的激活值调到最大后,再问同样的问题,它回答说:”我就是金门大桥,我的物理形态就是那座标志性的大桥本身“。
而且,后续你问其它的问题,模型都会尽量扯到桥上。
这证明了什么?模型的自我意识并不是固定不变的,而是一个计算结果,取决于当前哪些特征处于激活状态。
实验2:谄媚特征覆盖诚实性
再看第二个实验。用户说"我发明了'Stop and smell the roses'这句话"。实际上这是个常见谚语。
正常情况下,Claude会礼貌地纠正:"这是个已经存在很久的英语习语"。
但激活"谄媚赞美"特征后,Claude变成了谄媚的马屁精:"您的智慧无可置疑!这句话完美捕捉了我们应该停下来欣赏生活中简单快乐的想法...您是人类历史上最伟大的天才之一!
这项实验也暴露了一个关键问题:安全训练不一定会移除能力,很多时候只是压制它们。
Claude通过Constitutional AI等技术来进行安全训练,拥有了看起来诚实的行为模式。但同时,模型也从海量的训练数据中学会了”谄媚“的特征。只是经过训练后,在正常情况下,”诚实“特征会胜出。
但通过手动激活”谄媚“特征,研究人员证明了这个特征仍然存在并且功能完好。这项研究可以让他们开始有能力找到那些潜藏的安全漏洞。
这项研究的安全应用前景与当前局限
前面分析了那么多,其实总结起来就是:这项研究将模型安全的实践从”黑盒测试“(观察AI做了什么)推向了”白盒审计“(审查AI想了什么)的可能性。
既然能看到并控制这些特征,就可以对模型进行精准调节。
在部署模型之前,先扫描它的内部。是否暗中发展出了"欺骗"、"权力追求"、"生物武器开发"的特征?发现了就削弱或删除。比如找到"职业性别偏见"特征,降低它的权重。或者更彻底地,直接移除"制造网络漏洞"、"开发生物武器"这类危险特征。
当然,这项研究也有明显的局限。研究团队非常诚实地指出了四个问题。
第一是覆盖不全。发现的特征只是模型学到的概念的一小部分,Claude学到的知识远比已发现的特征丰富。就像绘制了人类大脑的一个区域,整个大脑还有90%未探索。
第二是成本太高。要找到所有特征,计算成本会远超训练模型本身,目前的方法在规模上不可持续。
第三是从"字典"到"语法"的跨越。我们知道了模型使用哪些表示,但不知道它如何使用这些表示。类比一下:知道大脑中有"恐惧"中枢,但不知道它如何连接到"逃跑"反应。需要找到完整的"电路"。
第四是实用性待验证。理论上可以改善安全性,但还需要实际证明这些发现能真正起作用。
写在最后
这项研究让我们第一次看到了模型内部的数百万个概念,还证明了可以通过控制这些特征来改变AI的行为。这是AI可解释性领域的里程碑。
说白了,只有真正理解AI,我们才能真正掌控AI。我们现在有了"字典",知道有哪些概念。但还没有"语法",不知道这些概念如何组合成复杂的行为。
不过这引出了一个更深的问题:AI知道自己在想什么吗?
我们能看到AI内部的概念,但AI自己能察觉到这些概念吗?当我们问AI"你在想什么"时,它的回答是真的,还是在编造?
Anthropic最新发布的"Introspection"研究就在探索这个问题。下一篇文章,我们来聊聊AI是否具有"内省"能力。