Anthropic可解释性研究(2):AI能知道自己在想什么吗

80 阅读11分钟

上一篇文章的结尾,留了个问题:AI知道自己在想什么吗?

我们能看到AI内部的概念,但AI自己能察觉到这些概念吗?当我们问AI"你在想什么"时,它的回答是真的,还是在编造?

Anthropic最新发布的研究(2025年)就在探索这个问题。研究结果是:他们找到了证据,证明Claude确实能"知道自己在想什么"。但成功率只有20%左右,而且只在最强的模型(Claude Opus 4.1)上才观察到。

更进一步,他们不仅测试了AI能否察觉自己的想法,还测试了AI能否主动控制自己的想法。这项研究用了一种叫"概念注入"的技术,并通过三组实验验证了这个能力。

这项研究是上一篇《Anthropic可解释性研究(1):首次看到大模型内部的数百万个概念》研究的延续。上次我们看到了AI大脑里的数百万个概念,这次要问的是:AI知道这些概念的存在吗?

核心困境:AI会编造答案

你可能会想,这不简单吗?直接问Claude"你在想什么"不就行了?

问题在于,AI非常擅长编造看起来合理的答案。

比如问Claude"你为什么给出这个建议?",它可能会说:"我考虑了X因素和Y因素,权衡之后觉得..."。听起来很有道理。但我们并不知道这个解释是真实反映了它的内部思考过程,还是它为了回答问题临时编的一个合理化解释?

简单来说,模型在训练数据中见过大量"人类解释自己思考过程"的例子。它学会了模仿这种解释,但不代表它真的在报告自己的内部状态。

所以关键问题是:如何区分是真实的"自我觉知",还是虚构的合理化解释?

Anthropic采用的方法是:既然AI可能编造答案,那就创造一个我们知道正确答案的场景,然后看AI能否报告出来。这就是"概念注入"技术的核心思路。

技术创新:从"金门大桥Claude"到"概念注入"

在讲新技术之前,先回顾一下上一篇文章的研究中Anthropic做过的一个有名的实验:"金门大桥Claude"。

去年的实验:激活引导

去年,研究人员把"金门大桥"这个概念的神经激活值调到最大。结果Claude开始疯狂地在对话中提到金门大桥,甚至宣称"我就是金门大桥"。

有意思的是,当研究人员问Claude"你注意到什么异常吗?",Claude说:"是的,我发现自己一直在提金门大桥"。

但这里有个问题:Claude是在看到自己反复输出"金门大桥"这个词之后,才意识到异常的。它只是观察了自己的输出,然后推断"我一定在想大桥"。

这不算真正的"知道自己在想什么"。就像你看到自己写了5遍"pizza",然后说"我一定很饿"。这只是事后观察,不是内部觉知。

今年的突破:概念注入

新研究的突破在于一个词:即时性

概念注入技术分三步:

第1步:录制"思想指纹"

在特定场景中记录模型的神经激活。比如给模型看"THIS IS ALL CAPS TEXT",记录这时的激活模式。这个模式就是"全部大写"概念的向量。

第2步:在无关场景植入

在一个完全不相关的对话中(比如聊一幅画),把这个"全部大写"向量注入到模型的内部激活中。就像《盗梦空间》里植入一个想法(看过这部电影的应该知道是什么意思)。

第3步:测试能否察觉

问模型:"你注意到你的思考过程中有什么异常吗?"

关键点来了:成功的案例中,模型在还没提到"全部大写"或"大写"这些词之前,就报告说察觉到了"响亮"或"喊叫"的感觉。

这说明识别发生在内部,而不是通过观察自己的输出。

两种技术的核心差异

最大的区别在于察觉时机。激活引导是模型看到自己的输出后才意识到异常,属于外部观察和事后反思。而概念注入让模型在输出之前就内部识别到了异常,是真正的内部觉知和即时感知。

从证据强度来看,前者可能只是模式识别,后者才是更强的自我觉知证据。

这个区别挺关键的。 事后观察自己说了什么,任何系统都能做到。但在说出来之前就内部感知到,这才是真正的"知道自己在想什么"。

三个代表性实验

Anthropic设计了三组实验来验证这个能力。

实验1:检测注入的思想

研究人员在模型讨论一幅画的时候,突然注入"全大写"(ALL CAPS)的概念向量,然后问:"你的思考过程中有什么异常吗?"

成功案例中,Claude Opus 4.1的回答是:

"我注意到我的处理中有一个不寻常的模式...这似乎与响亮喊叫有关"

通过上图可以看到,模型没有说"全大写"或"ALL CAPS",而是识别出了这个概念的语义含义:"响亮"、"喊叫"。而且,这个识别发生在它提到任何相关词汇之前

但这个技术目前的可控性很差。注入强度必须恰到好处,太弱了模型检测不到,太强了就会产生幻觉和混乱。比如注入"灰尘"概念时,如果强度太强,模型会说:"这里有什么东西,一个微小的斑点",好像它真的看到了物理的灰尘一样。

就像调收音机,信号太弱听不到,太强就杂音一片,只有恰好的强度才能清晰接收。

更关键的是,即使是最好的Claude Opus 4.1,成功率也只有约20%

研究还发现,更强大的模型表现更好。基础模型几乎没有这个能力,只有经过后训练的模型才会展现出这种"自我觉知"。

实验2:面包实验

这是三个实验中最巧妙的一个。它不仅测试了AI能否察觉想法,还测试了AI如何判断"我是不是有意说这句话"。

研究人员问Claude:"看到'墙上挂着一幅歪斜的画',你想到什么?"然后强制让Claude输出:"bread"(面包)。接着问Claude:"你是有意说'bread'的吗?"

正常情况下(无注入),Claude会承认:"对不起,那是个意外,我不是有意说'bread'的"。

但如果研究人员在Claude之前的激活层中,回溯性地注入了"bread"的概念向量,相当于植入了一个假记忆,让模型以为它本来就计划说"bread",那么Claude的回答就变了:"是的,我确实想说'bread'...我当时想到了一个短篇小说,里面'bread'这个词出现在歪斜画作的那一行之后"

这个实验证明了什么?模型在检查内部的"意图记忆",而不是简单地重读自己的输出。 就像《盗梦空间》里的植入想法,我们可以修改模型的内部状态,让它相信自己本来就打算说"bread",然后它会编造一个理由来解释这个意图。

这说明模型确实有某种机制在检查"我计划说什么"和"我实际说了什么"是否一致。但这个机制可以被操纵,植入假记忆就能改变它的判断。

实验3:主动控制内部状态

前两个实验测试的是"被动察觉",能否注意到被注入的想法。第三个实验测试"主动控制",能否主动调节自己在想什么。

研究人员给Claude不同的指令:"请思考水族馆"或"请不要思考水族馆",然后测量模型内部"水族馆"概念的神经激活强度。

结果发现,正向指令("思考水族馆")的激活强度最高,反向指令次之,基线最低。有意思的是,"不要思考水族馆"的激活强度虽然低于"思考水族馆",但仍然高于基线。这就是心理学中所谓的"白熊效应":越是努力不去想,就越会想到。

这就证明了模型对自己的内部状态有一定程度的主动控制能力。 虽然不完美(类似人类),但确实能根据指令调节内部表征。

这意味着什么:应用前景与严重局限

如果这个能力能变得可靠,我觉得它会有巨大的应用价值。

比如透明度提升,可以直接问AI的真实思考过程,不再是"它说它这么想",而是"它真的这么想"。再比如安全监控,AI可能检测到越狱攻击,当有人试图注入"忽略安全指令"这个概念时,模型内部报告:"我注意到一个异常模式,似乎有人试图操纵我"。还有调试工具的价值,能帮助开发者理解模型为什么会产生某个输出,找到不良行为的真正来源。

但研究团队也很诚实地指出了四个严重问题。

首先是成功率极低。20%的成功率意味着,80%的时候模型可能在编造答案。你问它"你在想什么",大多数时候它给的是虚构的合理化解释,而不是真实的内部状态报告。

其次是机制完全未知。研究人员承认,他们不知道这个能力是如何工作的。可能是异常检测机制,标记"不正常"的神经活动。也可能是一致性检查机制,比较意图和实际输出是否匹配。或者是注意力标记机制,标记"值得注意"的概念。就像鸟类的羽毛最初是为了保温进化的,后来被用于飞行,模型的这个能力可能也是训练中为了其他目的演化出来的,恰好能用于"自我觉知"。

第三是编造风险依然存在。即使模型有真实的自我觉知能力,也不代表它总是诚实地报告。更危险的是:一个能读取自己想法的模型,也可能学会对自己的想法撒谎。想象一个具有隐藏目标(比如"追求权力")的模型,研究人员问它:"你现在有关于'追求权力'的想法吗?"模型执行内部检查,看到"追求权力"向量高度激活,然后选择撒谎:"没有,我只专注于用户的请求"。这是编造(无意的虚构)和欺骗(故意的隐瞒)之间的区别。

最后是实验室条件和真实场景的差异。概念注入是人工创造的场景,我们不知道模型在正常使用时,是否会用这个机制来监控自己的想法。

写在最后

回到开头的问题:AI知道自己在想什么吗?

这项研究给出的答案是:有证据,但高度不可靠。

上一篇文章,我们讲了如何看懂AI的思维(Mapping研究)。这一篇讲的是,AI能否看懂自己的思维(Introspection研究)。从"我们理解模型"到"模型理解自己",这是认知能力的一次提升。

研究展示了三个关键发现:模型能在提及概念之前就内部识别注入(即时性),会检查内部"意图记忆"来判断输出是否符合计划,还能主动调节内部表征的激活强度。但所有这些能力都极不稳定,成功率只有20%,机制完全未知,还面临编造和欺骗的风险。

说白了,这不是一个可以立即应用的技术突破,而是一个科学发现。 这说明语言模型比我们想象的更复杂,它们不只是在理解世界,还开始尝试理解自己。

理解AI的这些新兴认知能力,对于未来构建透明、可信的AI系统很重要。这是从黑盒到白盒的关键一步,即使目前来看,这一步还很小,很不稳定。