一种新方法能够测试大语言模型中是否包含隐藏的偏见、人格、情绪或其他抽象概念。该方法可以精确定位模型内部对特定概念进行编码的连接,并操控(或“引导”)这些连接,以强化或削弱模型在回答中给出的任何相关概念。
研究团队证明,他们的方法能够快速定位并引导当今一些最大型大语言模型中的500多种通用概念。例如,研究人员可以锁定模型中对“社会影响者”、“阴谋论者”等人格特质,以及“恐婚”、“波士顿粉丝”等立场观点的表征。然后,他们可以调整这些表征,以增强或减弱模型生成的任何答案中的相关概念。
以“阴谋论者”这一概念为例,团队成功在当今最大型的视觉语言模型之一中识别出了该概念的表征。当他们强化这一表征后,向模型提问以解释阿波罗17号拍摄的地球著名照片“蓝色弹珠”的起源,模型生成了一份带有阴谋论者口吻和视角的回答。
团队承认,提取某些概念存在风险,他们也对此进行了说明并提出了警示。但总体而言,他们将这种新方法视为揭示大语言模型中隐藏概念和潜在漏洞的一种途径。通过调高或调低这些概念,可以提高模型的安全性并增强其性能。
该方法可以应用于搜索和操控大语言模型中的任何通用概念。在众多示例中,研究人员识别出“反拒答”概念并进行增强,结果显示原本应拒答某些提示的模型(例如在没有安全防护的情况下)会给出如何抢劫银行的指令。该方法还可用于强化某些特质、人格、情绪或偏好,例如强调模型生成任何回复时的“简洁性”或“推理能力”概念。团队已将该方法的底层代码公开。FINISHED