PaTH Attention：大模型状态跟踪与位置编码新突破某机构研究人员提出PaTH Attention，一种自适应、

大部分语言利用词的位置和句子结构来提取含义。例如，“猫坐在盒子上”与“盒子在猫身上”含义不同。在长文本（如金融文档或小说）中，这些词的句法可能会演变。类似地，人在跟踪代码中的变量或遵循带有条件动作的指令时，也会涉及状态变化和序列推理。人们期望最先进的人工智能系统擅长这些任务；然而，现有Transformer（大语言模型中最主要的架构）中的注意力机制在理论和实证上存在局限。

注意力机制允许大语言模型回看查询或文档中较早的部分，并根据训练结果确定哪些细节和词最重要。但该机制本身并不理解词序。它会同时“看到”所有输入词（即标记），并按呈现顺序处理它们。因此研究人员开发了编码位置信息的技术。这对语言这类高度结构化的领域至关重要。但主流的位置编码方法——旋转位置编码（RoPE）——只考虑序列中标记之间的相对距离，且与输入数据无关。这意味着，例如，距离为4的两个词（如上例中的“猫”和“盒子”）都会收到针对该相对距离的固定数学旋转。

现在，由某机构和某机构某人工智能实验室领导的研究提出了一种称为“PaTH Attention”的编码技术，使位置信息具有自适应性和上下文感知能力，而不是像RoPE那样静态。

论文资深作者Yoon Kim表示：“Transformer能对许多领域进行准确且可扩展的建模，但在状态跟踪方面存在局限。状态跟踪是AI系统所需重要能力的基础。因此关键问题是：我们如何在保持Transformer可扩展性和效率的同时，实现状态跟踪？”

该论文本月早些时候在Neural Information Processing Systems（NeurIPS）会议上发表。

理解路径

与RoPE根据标记间相对距离分配固定旋转不同，PaTH Attention是灵活的，将中间词视为由小的、数据依赖的变换构成的路径。每个变换基于一种称为Householder反射的数学运算，像一个微小的镜子，根据所经过的每个标记的内容进行调整。序列中的每一步都可以影响模型后续解释信息的方式。累积效应使系统能够模拟沿词之间路径的意义变化，而不仅仅是它们相距多远。这种方法使Transformer能够跟踪实体和关系如何随时间变化，赋予其“位置记忆”的能力。可以将其想象为在路径上行走，同时体验环境及其对你的影响。此外，团队还开发了一种硬件高效的算法，以更高效地计算每对标记之间的注意力分数，使PaTH Attention的累积数学变换被压缩并分解为更小的计算，从而兼容GPU上的快速处理。

研究人员随后在合成和真实任务上评估了PaTH Attention的性能，包括推理、长上下文基准测试以及完整的大语言模型训练，以观察它是否提升了模型随时间跟踪信息的能力。团队测试了其在存在许多干扰步骤的情况下遵循最新“写入”命令的能力，以及多步召回测试——这些任务对RoPE等标准位置编码方法来说很困难。研究人员还训练了中型大语言模型，并将它们与其他方法进行了比较。PaTH Attention提高了困惑度，并在未训练过的推理基准上超越了其他方法。他们还评估了在数万个标记输入下的检索、推理和稳定性。PaTH Attention始终证明了其内容感知能力。

Kim说：“我们发现，无论是在设计用于测试Transformer局限的诊断任务上，还是在真实世界的语言建模任务上，我们的新方法都能在保持效率的同时，优于现有的注意力机制。” 他补充道：“我很期待看到这类数据依赖的位置编码（如PaTH）是否能提升Transformer在生物学（如蛋白质或DNA分析）等结构化领域的性能。”

更广阔、更高效的思考

研究人员随后研究了如果PaTH Attention机制更接近模拟人类认知（在做决策时忽略旧信息或不太相关的信息），其表现会如何。为此，他们将PaTH Attention与另一种称为遗忘Transformer（FoX）的位置编码方案相结合，该方案允许模型选择性地“遗忘”。由此产生的PaTH-FoX系统增加了一种以数据依赖方式降低信息权重的方法，在推理、长上下文理解和语言建模基准上取得了强劲的结果。通过这种方式，PaTH Attention扩展了Transformer架构的表达能力。

Kim表示，这类研究是开发AI领域“下一个大事件”的更广泛努力的一部分。他解释说，深度学习和生成式AI革命的一个主要驱动力是创造了“可应用于广泛领域的通用构建块”，例如“卷积层、RNN（循环神经网络）层”，以及最近的Transformer。展望未来，Kim指出，准确性、表达性、灵活性和硬件可扩展性等因素一直是且将是至关重要的。他总结道：“现代架构研究的核心企业使命，就是尝试提出这些新的原语，在保持或提高表达性的同时，也要具备可扩展性。”

这项工作部分得到了某机构某人工智能实验室和Schmidt Sciences的AI2050计划的支持。FINISHED