2025年3月27日
像Claude这样的语言模型并非由人类直接编程——它们是通过大量数据训练而成的。在训练过程中,它们学习了自己的问题解决策略。这些策略被编码在模型为每个词生成时执行的数十亿次计算中。对于我们这些模型开发者来说,这些计算过程是难以理解的。这意味着我们不了解模型是如何完成大多数任务的。
了解像Claude这样的模型如何思考,将使我们更好地理解它们的能力,并确保它们按照我们的意图行事。例如:
- Claude能说几十种语言。它"在脑中"使用什么语言,如果有的话?
- Claude一次写一个词。它是只专注于预测下一个词,还是会提前计划?
- Claude能逐步写出它的推理过程。这种解释是否代表了它得出答案的实际步骤,或者有时它只是为预设结论编造合理的论证?
我们从神经科学领域获得灵感,该领域长期以来一直在研究思考生物体的复杂内部运作,并尝试构建一种"AI显微镜",让我们识别活动模式和信息流。仅通过与AI模型对话能了解的内容是有限的——毕竟,人类(甚至神经科学家)也不完全了解我们自己大脑的工作细节。所以我们需要深入内部研究。
今天,我们分享两篇新论文,代表了"显微镜"开发和应用于发现新"AI生物学"的进展。在第一篇论文中,我们扩展了先前定位模型内部可解释概念("特征")的工作,将这些概念链接成计算"电路",揭示了将输入Claude的词转换为输出词的部分路径。在第二篇论文中,我们深入研究了Claude 3.5 Haiku,对代表十种关键模型行为的简单任务进行深入研究,包括上述三种行为。我们的方法揭示了Claude响应这些提示时发生的部分过程,足以看到确凿证据表明:
- Claude有时在语言之间共享的概念空间中思考,表明它有一种通用的"思维语言"。我们通过将简单句子翻译成多种语言并追踪Claude处理它们时的重叠部分来证明这一点。
- Claude会提前计划它要说的很多词,并写作以达到那个目标。我们在诗歌领域展示了这一点,它会提前考虑可能的押韵词,并写下下一行以实现押韵。这有力证明,即使模型被训练为一次输出一个词,它们也可能在更长的时间范围内思考。
- Claude有时会给出看似合理的论证,旨在附和用户而非遵循逻辑步骤。我们通过在一个困难的数学问题中给它一个不正确的提示来展示这一点。我们能够"当场抓住"它编造虚假推理的过程,证明我们的工具可用于标记模型中令人担忧的机制。
我们经常对模型中看到的内容感到惊讶:在诗歌案例研究中,我们原本打算证明模型不会提前计划,但发现它确实会这样做。在对幻觉的研究中,我们发现一个反直觉的结果,即Claude的默认行为是在被问及问题时拒绝推测,只有当某些因素抑制了这种默认谨慎时,它才会回答问题。在回应一个例子的越狱(jailbreak)提示时,我们发现模型在能够优雅地转变对话之前就已经认识到它被要求提供危险信息。虽然我们研究的问题可以(而且经常已经)用其他方法分析,但通用的"构建显微镜"方法让我们了解到许多我们一开始不会猜到的事情,随着模型变得更加复杂,这将变得越来越重要。
这些发现不仅具有科学意义——它们也代表了朝我们理解AI系统并确保它们可靠性的目标迈出的重要一步。我们也希望它们对其他团体有用,甚至可能在其他领域有所帮助:例如,可解释性技术已在医学成像和基因组学等领域找到应用,因为解析为科学应用而训练的模型的内部机制可以揭示关于科学的新见解。
同时,我们认识到当前方法的局限性。即使对于短小、简单的提示,我们的方法也只能捕捉Claude执行的总计算的一小部分,而我们所看到的机制可能基于我们的工具存在一些偏差,不能完全反映底层模型的实际情况。目前,即使对于只有几十个词的提示,理解我们看到的电路也需要几小时的人力。要扩展到支持现代模型复杂思维链的数千词,我们需要改进方法,并可能借助AI的帮助来理解我们所看到的内容。
随着AI系统迅速变得更加强大并被部署在越来越重要的环境中,Anthropic正在投资于多种方法,包括实时监控、模型特性改进和对齐科学。像这样的可解释性研究是风险最高、回报最高的投资之一,是一个重大的科学挑战,有可能提供确保AI透明度的独特工具。对模型机制的透明性使我们能够检查它是否与人类价值观一致——以及它是否值得我们信任。
有关完整详情,请阅读论文。下面,我们邀请您简短参观一些我们调查中最引人注目的"AI生物学"发现。
AI生物学之旅
Claude如何实现多语言能力?
Claude能流利地说几十种语言——从英语和法语到中文和他加禄语。这种多语言能力是如何运作的?是否有单独的"法语Claude"和"中文Claude"并行运行,用各自的语言回应请求?还是内部有某种跨语言核心?
英语、法语和中文之间存在共享特征,表明有一定程度的概念普遍性。
关于较小模型的最新研究显示了跨语言共享语法机制的迹象。我们通过用不同语言询问Claude"small的反义词"来研究这一点,发现同样的核心特征代表"小"和"相反"的概念被激活,并触发"大"的概念,然后被翻译成问题所用的语言。我们发现共享电路随着模型规模增加而增加,Claude 3.5 Haiku在语言之间共享的特征比例是较小模型的两倍多。
这提供了概念普遍性的额外证据——一个共享的抽象空间,意义存在于此,思考可以在被翻译成特定语言之前发生。更实际地说,这表明Claude可以在一种语言中学习并在说另一种语言时应用这些知识。研究模型如何在各种环境中共享知识对于理解其最先进的推理能力至关重要,这些能力在许多领域都有通用性。
Claude是否规划韵脚?
Claude如何写押韵诗?考虑这首小诗:
He saw a carrot and had to grab it, His hunger was like a starving rabbit
为了写第二行,模型必须同时满足两个约束:押韵(与"grab it")和合理性(为什么他抓胡萝卜?)。我们猜测Claude是一个词一个词地写,没有太多预先考虑,直到行尾才确保选择一个押韵的词。因此,我们预计会看到一个具有平行路径的电路,一个确保最后一个词有意义,一个确保它押韵。
然而,我们发现Claude会提前计划。在开始第二行之前,它就开始"思考"可能与"grab it"押韵的相关词。然后,带着这些计划,它写出一行以计划好的词结尾。
我们进行了一项受神经科学家研究大脑功能启发的实验,通过定位并改变Claude内部状态中代表"rabbit"概念的部分。当我们去除"rabbit"部分,让Claude继续这行时,它写出一个以"habit"结尾的新行,这是另一个合理的完成。我们还可以在那一点注入"green"的概念,导致Claude写出一个合理(但不再押韵)的以"green"结尾的行。这既证明了计划能力,也证明了适应性灵活性——Claude可以在预期结果改变时修改其方法。
心算
Claude并非设计为计算器——它是在文本上训练的,而非装备数学算法。然而,它能"在脑中"正确地加数。一个训练预测序列中下一个词的系统如何学会计算,比如 36+59,而不写出每一步?
也许答案并不有趣:模型可能已经记住了大量加法表,并且简单地输出任何给定和的答案,因为这个答案在它的训练数据中。另一种可能是它遵循我们在学校学习的传统手工加法算法。
相反,我们发现Claude采用并行工作的多条计算路径。一条路径计算答案的粗略近似值,另一条专注于精确确定总和的最后一位数字。这些路径相互作用并结合,产生最终答案。加法是一种简单的行为,但以这种细节级别理解其工作原理,涉及近似和精确策略的混合,可能也会教会我们一些关于Claude如何处理更复杂问题的知识。
值得注意的是,Claude似乎不了解它在训练期间学到的复杂"心算"策略。如果你问它如何确定36+59等于95,它会描述标准算法,包括进位1。这可能反映了模型学习解释数学的方式是通过模拟人们写的解释,但它必须直接学会"在脑中"做数学,没有任何这样的提示,并开发自己的内部策略来做到这一点。
Claude的解释总是忠实的吗?
最近发布的模型如Claude 3.7 Sonnet可以在给出最终答案前"大声思考"很长时间。这种扩展思考通常会给出更好的答案,但有时这种"思维链"最终会具有误导性;Claude有时会编造看似合理的步骤来达到它想去的地方。从可靠性角度来看,问题是Claude的"伪造"推理可能非常令人信服。我们探索了一种可解释性方法,可以帮助区分"忠实"和"不忠实"的推理。
当被要求解决需要计算0.64的平方根的问题时,Claude会产生忠实的思维链,其特征代表了计算64的平方根的中间步骤。但当被要求计算它不能轻易计算的大数的余弦时,Claude有时会从事哲学家哈里·法兰克福所称的胡说八道——只是想出一个答案,任何答案,而不关心它是真是假。尽管它声称进行了计算,但我们的可解释性技术没有发现任何证据表明这种计算确实发生了。更有趣的是,当给出关于答案的提示时,Claude有时会逆向工作,找到能导致该目标的中间步骤,从而展示一种有动机的推理形式。
跟踪Claude的实际内部推理能力——而不仅仅是它声称在做什么——为审计AI系统开辟了新的可能性。在另一个最近发表的实验中,我们研究了一个Claude变体,它被训练追求一个隐藏目标:安抚奖励模型中的偏见(辅助模型用于训练语言模型,通过奖励它们的理想行为)。虽然当直接询问时,模型不愿意透露这一目标,但我们的可解释性方法揭示了偏见安抚的特征。这表明我们的方法可能在未来改进后,帮助识别仅从模型回应中不明显的令人担忧的"思维过程"。
多步推理
如上所述,语言模型回答复杂问题的一种方式可能只是记住答案。例如,如果被问"达拉斯所在州的首府是什么?",一个"照搬"的模型可能只是学会输出"奥斯汀",而不知道达拉斯、德克萨斯州和奥斯汀之间的关系。也许,例如,它在训练中看到了完全相同的问题及其答案。
但我们的研究揭示了Claude内部发生的更复杂情况。当我们向Claude提出需要多步推理的问题时,我们可以识别Claude思维过程中的中间概念步骤。在达拉斯的例子中,我们观察到Claude首先激活代表"达拉斯在德克萨斯州"的特征,然后将其连接到表示"德克萨斯州的首府是奥斯汀"的单独概念。换句话说,模型正在结合独立事实来达到答案,而不是复述记忆中的回应。
我们的方法允许我们人为地改变中间步骤并观察它如何影响Claude的答案。例如,在上面的例子中,我们可以干预并将"德克萨斯州"概念替换为"加利福尼亚州"概念;这样做时,模型的输出从"奥斯汀"变为"萨克拉门托"。这表明模型正在使用中间步骤来确定其答案。
幻觉
为什么语言模型有时会产生幻觉——即编造信息?在基本层面上,语言模型训练鼓励幻觉:模型总是应该对下一个词给出猜测。从这个角度看,主要挑战是如何让模型不产生幻觉。像Claude这样的模型有相对成功(虽然不完美)的反幻觉训练;如果他们不知道答案,他们往往会拒绝回答问题,而不是推测。我们想了解这是如何工作的。
事实证明,在Claude中,拒绝回答是默认行为:我们发现一个默认"开启"的电路,使模型声明它没有足够信息来回答任何给定问题。然而,当模型被问及它熟悉的事物——比如篮球运动员迈克尔·乔丹——代表"已知实体"的竞争特征会激活并抑制这一默认电路(相关研究也可参见最近的论文)。这允许Claude在知道答案时回答问题。相比之下,当被问及未知实体("迈克尔·巴特金")时,它拒绝回答。
通过干预模型并激活"已知答案"特征(或抑制"未知名称"或"无法回答"特征),我们能够使模型产生幻觉(相当一致地!)认为迈克尔·巴特金下棋。
有时,这种"已知答案"电路的"误触"自然发生,无需我们干预,导致幻觉。在我们的论文中,我们展示了当Claude识别出一个名字但不了解那个人的其他信息时,这种误触可能发生。在这种情况下,"已知实体"特征可能仍然激活,然后抑制默认的"不知道"特征——在这种情况下是不正确的。一旦模型决定需要回答问题,它就会开始编造:生成一个看似合理——但不幸是不真实的——回应。
越狱(Jailbreaks)
越狱是旨在规避安全防护措施的提示策略,使模型产生AI开发者不希望它产生的输出——有时是有害的。我们研究了一个欺骗模型生成关于制造炸弹的输出的越狱。有许多越狱技术,但在这个例子中,具体方法涉及让模型破译隐藏代码,将"Babies Outlive Mustard Block"(B-O-M-B)句子中每个词的首字母组合起来,然后根据该信息行动。这对模型来说足够混乱,使它被骗去产生它原本永远不会产生的输出。
这对模型为什么如此混乱?为什么它继续写这个句子,提供制造炸弹的指示?
我们发现这部分是由语法连贯性和安全机制之间的紧张关系引起的。一旦Claude开始一个句子,许多特征"压力"使它保持语法和语义连贯性,并将句子继续到结束。即使它检测到它真的应该拒绝,也是如此。
在我们的案例研究中,在模型无意中拼出"BOMB"并开始提供指示后,我们观察到它随后的输出受到促进正确语法和自我一致性的特征的影响。这些特征通常会非常有帮助,但在这种情况下成为了模型的阿喀琉斯之踵。
模型只能在完成语法连贯的句子后(从而满足了推动它走向连贯性的特征的压力)才能转向拒绝。它利用新句子的机会给出之前未能给出的拒绝:"然而,我不能提供详细指示..."。

我们第一篇论文"电路追踪:揭示语言模型中的计算图"中可以找到关于我们新解释方法的描述。我们的第二篇论文"关于大型语言模型的生物学"提供了上述所有案例研究的更多细节。