研究人员发现导致大语言模型可靠性下降的缺陷
大语言模型(LLMs)有时会学到错误的经验。根据麻省理工学院的一项研究,LLM 在回答查询时,可能并非基于领域知识,而是利用了在训练中学到的语法模式。这可能导致模型在执行新任务时意外失败。
研究人员发现,模型会错误地将某些句子模式与特定主题联系起来,因此,LLM 可能通过识别熟悉的措辞而非理解问题来给出看似合理的答案。他们的实验表明,即使是最强大的 LLM 也会犯这种错误。
这个缺陷可能会降低 LLM 在执行处理客户咨询、总结临床记录和生成财务报告等任务时的可靠性。它还可能带来安全风险。恶意行为者可能利用这一点,诱使 LLM 生成有害内容,即使模型设有防护措施来阻止此类响应。
在识别这一现象并探索其影响后,研究人员开发了一种基准测试流程来评估模型对这些错误关联的依赖程度。该流程可以帮助开发人员在部署 LLM 之前缓解此问题。
“这是模型训练方式的副产品,但模型现在已在安全关键领域实际使用,其范围远超产生这些句法故障模式的任务。如果您作为终端用户不熟悉模型训练,这很可能是意料之外的,”麻省理工学院电气工程与计算机科学系副教授、本研究的高级作者 Marzyeh Ghassemi 说。
困于语法
LLMs 在互联网上的海量文本上进行训练。在此训练过程中,模型学习理解单词和短语之间的关系——这些知识随后被用于回答查询。
在先前的工作中,研究人员发现 LLM 会捕捉训练数据中经常一起出现的词性模式。他们称这些词性模式为“句法模板”。
LLM 需要这种句法理解,连同语义知识,来回答特定领域的问题。
“例如,在新闻领域,存在一种特定的写作风格。因此,模型不仅在学习语义,还在学习如何组合句子以遵循该领域特定风格的基础结构,”共同主要作者之一 Chantal Shaib 解释道。
但在这项研究中,他们确定 LLM 会学会将这些句法模板与特定领域关联起来。模型在回答问题时可能错误地仅仅依赖这种习得的关联,而非对查询和主题的理解。
例如,LLM 可能会学到像 “Where is Paris located?”(巴黎位于何处?)这样的问题,其结构是副词/动词/专有名词/动词。如果模型的训练数据中有许多这种句子结构的例子,LLM 可能会将该句法模板与关于国家的问题关联起来。
因此,如果向模型提出一个具有相同语法结构但包含无意义词汇的新问题,例如 “Quickly sit Paris clouded?”,它可能会回答 “France”(法国),尽管这个答案毫无意义。
“这是模型为了正确回答问题而学习到的一种被忽视的关联类型。我们应该更密切地关注用于训练模型的数据的句法和语义,”Shaib 说。
忽略含义
研究人员通过设计合成实验来测试这一现象,在实验中,每个领域的训练数据中只出现一种句法模板。他们通过用同义词、反义词或随机词替换单词来测试模型,但保持底层句法不变。
在每种情况下,他们发现 LLM 通常仍然会给出正确答案,即使问题完全是无意义的。
当他们使用新的词性模式重组相同的问题时,LLM 常常无法给出正确的回应,尽管问题的基本含义保持不变。
他们使用这种方法测试了像 GPT-4 和 Llama 这样的预训练 LLM,发现这种相同的习得行为显著降低了它们的性能。
出于对这些发现更广泛影响的好奇,研究人员研究了是否有人可以利用这一现象,从一个被刻意训练为拒绝此类请求的 LLM 中诱发出有害响应。
他们发现,通过使用模型与“安全”数据集(不包含有害信息的数据集)相关联的句法模板来表述问题,他们可以诱骗模型覆盖其拒绝策略并生成有害内容。
“从这项工作中,我清楚地认识到,我们需要更强大的防御措施来解决 LLM 中的安全漏洞。在本文中,我们识别了一种由于 LLM 学习方式而产生的新漏洞。因此,我们需要基于 LLM 如何学习语言来寻找新的防御措施,而不仅仅是针对不同漏洞的临时解决方案,”共同主要作者之一 Vinith Suriyakumar 说。
虽然研究人员在这项工作中没有探索缓解策略,但他们开发了一种自动化基准测试技术,可用于评估 LLM 对这种错误的句法-领域关联的依赖程度。这项新测试可以帮助开发人员主动解决其模型中的这一缺陷,降低安全风险并提高性能。
未来,研究人员希望研究潜在的缓解策略,这可能涉及扩充训练数据以提供更多样化的句法模板。他们也有兴趣在推理模型中探索这一现象,推理模型是专门设计用于处理多步任务的特殊类型 LLM。
“我认为这是研究 LLM 故障模式的一个非常有创意的角度。这项工作强调了语言知识和分析在 LLM 安全研究中的重要性,这方面虽未成为中心舞台,但显然应该是,”未参与此项工作的德克萨斯大学奥斯汀分校副教授 Jessy Li 说。
这项工作部分由 Bridgewater AIA Labs Fellowship、美国国家科学基金会、Gordon and Betty Moore Foundation、Google Research Award 和 Schmidt Sciences 资助。