Gemma Scope 2:深入解析复杂语言模型行为的开源工具集

2 阅读4分钟

Gemma Scope 2:助力AI安全社区深入理解复杂语言模型行为

语言模型可解释性团队宣布推出全新的开源语言模型可解释性工具套件。大型语言模型(LLM)能够完成令人惊叹的推理任务,但其内部的决策过程在很大程度上仍然不透明。当系统行为不符合预期时,由于无法洞察其内部运作,很难准确找出其行为的确切原因。去年,我们通过Gemma Scope推进了可解释性科学,这是一套旨在帮助研究人员理解Gemma 2(我们轻量级的开放模型集)内部运作的工具包。

今天,我们发布了Gemma Scope 2:一个全面的、开源的可解释性工具套件,适用于所有Gemma 3模型规模(从2.7亿到270亿参数)。这些工具使我们能够追踪模型整个“大脑”中的潜在风险。据我们所知,这是迄今为止某AI实验室进行的最大规模的开源可解释性工具发布。构建Gemma Scope 2涉及存储约110PB的数据,并训练了总计超过1万亿的参数。

随着AI的持续进步,我们期待AI研究社区能利用Gemma Scope 2来调试新出现的模型行为,使用这些工具更好地审计和调试AI代理,并最终加速针对越狱、幻觉和谄媚等问题,开发出实用且稳健的安全干预措施。

感谢某机构,我们的交互式Gemma Scope 2演示现已可供试用。

Gemma Scope 2的新特性

可解释性研究旨在理解AI模型的内部运作和已习得的算法。随着AI变得愈发强大和复杂,可解释性对于构建安全可靠的AI至关重要。

与其前身一样,Gemma Scope 2充当了Gemma语言模型家族的显微镜。通过结合稀疏自编码器(SAEs)和转码器,它允许研究人员观察模型内部,了解模型在“思考”什么,以及这些“想法”是如何形成并与模型行为关联的。这反过来又使得对越狱或其他与安全相关的AI行为进行更深入的研究成为可能,例如模型传达的推理与其内部状态之间的差异。

最初的Gemma Scope支持在关键安全领域的研究,如模型幻觉、识别模型所知的秘密以及训练更安全的模型,而Gemma Scope 2通过重大升级支持了更具雄心的研究:

  • 大规模全覆盖:我们为整个Gemma 3系列(高达270亿参数)提供了一套完整的工具,这对于研究仅在大型模型中出现的涌现行为至关重要。虽然Gemma Scope 2并非基于该模型训练,但这正是这些工具可能能够理解的涌现行为的一个例子。
  • 更精细的解码复杂内部行为工具:Gemma Scope 2包含了在我们Gemma 3系列模型的每一层上训练的SAEs和转码器。跳层转码器和跨层转码器使得解码遍布于模型中的多步计算和算法变得更加容易。
  • 先进的训练技术:我们采用了最先进的技术,特别是Matryoshka训练技术,它帮助SAEs检测到更多有用的概念,并解决了在Gemma Scope中发现的一些缺陷。
  • 聊天机器人行为分析工具:我们还为针对聊天用例微调的Gemma 3版本提供了可解释性工具。这些工具能够分析复杂的多步行为,例如越狱、拒绝机制和思维链的忠实度。

[此处应插入图片:展示了Gemma Scope 2使用稀疏自编码器和转码器向研究人员展示模型如何判断潜在欺诈邮件的可视化图]

推动领域发展

通过发布Gemma Scope 2,我们的目标是让AI安全研究社区能够使用一套尖端的可解释性工具来推动该领域向前发展。这种新水平的访问权限对于解决仅在更大、更现代的LLM中出现的现实世界安全问题至关重要。FINISHED