大部分语言利用词的位置和句子结构来提取含义。例如,“猫坐在盒子上”与“盒子在猫身上”含义不同。在长文本(如金融文档或小说)中,这些词的句法可能会演变。类似地,人在跟踪代码中的变量或遵循带有条件动作的指令时,也会涉及状态变化和序列推理。人们期望最先进的人工智能系统擅长这些任务;然而,现有Transformer(大语言模型中最主要的架构)中的注意力机制在理论和实证上存在局限。
注意力机制允许大语言模型回看查询或文档中较早的部分,并根据训练结果确定哪些细节和词最重要。但该机制本身并不理解词序。它会同时“看到”所有输入词(即标记),并按呈现顺序处理它们。因此研究人员开发了编码位置信息的技术。这对语言这类高度结构化的领域至关重要。但主流的位置编码方法——旋转位置编码(RoPE)——只考虑序列中标记之间的相对距离,且与输入数据无关。这意味着,例如,距离为4的两个词(如上例中的“猫”和“盒子”)都会收到针对该相对距离的固定数学旋转。
现在,由某机构和某机构某人工智能实验室领导的研究提出了一种称为“PaTH Attention”的编码技术,使位置信息具有自适应性和上下文感知能力,而不是像RoPE那样静态。
论文资深作者Yoon Kim表示:“Transformer能对许多领域进行准确且可扩展的建模,但在状态跟踪方面存在局限。状态跟踪是AI系统所需重要能力的基础。因此关键问题是:我们如何在保持Transformer可扩展性和效率的同时,实现状态跟踪?”
该论文本月早些时候在Neural Information Processing Systems(NeurIPS)会议上发表。
理解路径
与RoPE根据标记间相对距离分配固定旋转不同,PaTH Attention是灵活的,将中间词视为由小的、数据依赖的变换构成的路径。每个变换基于一种称为Householder反射的数学运算,像一个微小的镜子,根据所经过的每个标记的内容进行调整。序列中的每一步都可以影响模型后续解释信息的方式。累积效应使系统能够模拟沿词之间路径的意义变化,而不仅仅是它们相距多远。这种方法使Transformer能够跟踪实体和关系如何随时间变化,赋予其“位置记忆”的能力。可以将其想象为在路径上行走,同时体验环境及其对你的影响。此外,团队还开发了一种硬件高效的算法,以更高效地计算每对标记之间的注意力分数,使PaTH Attention的累积数学变换被压缩并分解为更小的计算,从而兼容GPU上的快速处理。
研究人员随后在合成和真实任务上评估了PaTH Attention的性能,包括推理、长上下文基准测试以及完整的大语言模型训练,以观察它是否提升了模型随时间跟踪信息的能力。团队测试了其在存在许多干扰步骤的情况下遵循最新“写入”命令的能力,以及多步召回测试——这些任务对RoPE等标准位置编码方法来说很困难。研究人员还训练了中型大语言模型,并将它们与其他方法进行了比较。PaTH Attention提高了困惑度,并在未训练过的推理基准上超越了其他方法。他们还评估了在数万个标记输入下的检索、推理和稳定性。PaTH Attention始终证明了其内容感知能力。
Kim说:“我们发现,无论是在设计用于测试Transformer局限的诊断任务上,还是在真实世界的语言建模任务上,我们的新方法都能在保持效率的同时,优于现有的注意力机制。” 他补充道:“我很期待看到这类数据依赖的位置编码(如PaTH)是否能提升Transformer在生物学(如蛋白质或DNA分析)等结构化领域的性能。”
更广阔、更高效的思考
研究人员随后研究了如果PaTH Attention机制更接近模拟人类认知(在做决策时忽略旧信息或不太相关的信息),其表现会如何。为此,他们将PaTH Attention与另一种称为遗忘Transformer(FoX)的位置编码方案相结合,该方案允许模型选择性地“遗忘”。由此产生的PaTH-FoX系统增加了一种以数据依赖方式降低信息权重的方法,在推理、长上下文理解和语言建模基准上取得了强劲的结果。通过这种方式,PaTH Attention扩展了Transformer架构的表达能力。
Kim表示,这类研究是开发AI领域“下一个大事件”的更广泛努力的一部分。他解释说,深度学习和生成式AI革命的一个主要驱动力是创造了“可应用于广泛领域的通用构建块”,例如“卷积层、RNN(循环神经网络)层”,以及最近的Transformer。展望未来,Kim指出,准确性、表达性、灵活性和硬件可扩展性等因素一直是且将是至关重要的。他总结道:“现代架构研究的核心企业使命,就是尝试提出这些新的原语,在保持或提高表达性的同时,也要具备可扩展性。”
这项工作部分得到了某机构某人工智能实验室和Schmidt Sciences的AI2050计划的支持。FINISHED