Claude 为什么这么聪明?Anthropic 最新研究揭秘

197 阅读4分钟

在人工智能领域,大语言模型(如 Claude)已展现出强大的语言处理能力和编程能力,但其内部运作机制仍是个“黑箱”,让人难以理解。Claude 这么厉害,它到底是怎么工作的?Claude的开发团队Anthropic 给出了一种新的方法!

为揭示这些模型的内部结构,Anthropic团队在其研究论文中,引入了一种名为“归因图”的新方法。该方法类似于神经科学中的连接组学,旨在追踪模型从输入到输出的中间计算步骤,就像给模型做‘思维CT’。

该方法的核心基于 Transformer 架构的底层逻辑:当基础原始模型的 MLP 神经元被替换为三千万个稀疏激活的 “替代特征”(每个特征对应如 “时间判断”“逻辑关联” 等可解释概念)后,通过构建归因图来可视化模型的思考路径。

图1 替换模型通过跨层转码器的稀疏激活特征替代原模型神经元而构建

具体而言,归因图以特征为节点、特征间的因果联系为边,先绘制出完整的计算网络图。再通过修剪次要连接保留关键路径,最终将意义相关的特征节点归为 “超节点”。如同把零散的思维碎片整合成逻辑模块,从而简化呈现模型从解析输入到生成回答的核心推理步骤。

图2 局部替代模型通过向替代模型添加误差项和固定的注意力模式,以精确重现原始模型在特定提示词上的行为

这一过程就像绘制模型的 “思维地图”:先标注出负责语法解析、逻辑推理等不同功能的 “思维回路”,再通过筛选关键连接来验证哪些部分真正主导了输出结果,让模型的 “思考过程” 从一个黑箱变为可解读的清晰路径。

论文里举了三个例子:

第一个例子是在多步推理 处理数学题时,在归因图中能看到‘逻辑推理回路’先激活,调用代数公式模块,再传给结果整合模块;能够定位「逻辑推理回路」在数学题解答中的激活顺序与协作模式。

第二个例子是在诗歌创作时,‘语义关联回路’会先匹配押韵词,再激活‘情感生成模块’调整用词;能够发现「语义关联回路」与「韵律生成模块」的层级化调用机制。

第三个例子是医学诊断,当删掉‘疾病术语回路’,模型诊断准确率直接下降 40% 以上,这说明这个回路确实在专门处理医学知识。

这项研究的意义在于,第一次让大模型的‘内部思维链’看得见、摸得着,让AI变成透明的,不再是一个“黑箱”。它可以支持企业进行模型偏见纠正,为政府部门的 AI 伦理审查提供技术支撑。也可以帮助开发者定位模型 bug的具体模块,优化模型的结构,是很具有实用价值的一项研究。

集智俱乐部组织翻译了Anthropic团队的这篇研究论文,全文超过10万字,分为了三篇公众号文章,在阅读时,您可以思考以下问题:

  1. 大语言模型在推理时会走捷径吗?

  2. 大语言模型作诗是即兴还是规划的?

  3. 大语言模型有自己独立的原生语言吗?

从归因图到 AI 的“生物学”:探索大语言模型的内部机制「上」

从归因图到 AI 的“生物学”:探索 Claude3.5 Haiku 的内部机制「中」

打开AI黑箱:如何用归因图绘制大语言模型的脑回路?

如果有想进一步探索大模型的工作原理的朋友,推荐加入这个由集智俱乐部举办的读书会,读书会的五位发起人老师会带领大家研读领域前沿论文,并且通过读书会内部成员间的讨论,和专家学者的交流,能够促进我们更深入的理解这个问题。

读书会于2025年6月19日启动,每周四晚19:30-21:30,预计持续分享10周左右。每周进行线上会议,能够与主讲人等读书会成员当面交流,也可以观看视频回放持续学习。

想要加入读书会的朋友请点击链接(pattern.swarma.org/study_group…

集智俱乐部的读书会是面向广大科研工作者的系列论文研读活动,其目的是共同深入学习探讨某个科学议题,了解前沿进展,激发科研灵感,促进科研合作,降低科研门槛。读书会活动始于 2008 年,至今已经有 60 余个主题,内容涵盖复杂系统、人工智能、脑与意识、生命科学、因果科学、网络科学等。