相对位置编码论文简要笔记本文已参与「新人创作礼」活动，一起开启掘金创作之路。结合相对位置和绝对位置表征，翻译质量没有进

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations[J]. arXiv preprint arXiv:1803.02155, 2018.

结合相对位置和绝对位置表征，翻译质量没有进一步提高。
英德互译实验结果
In our experiments we did not observe any benefit from including sinusoidal position encodings in addition to relative position representations.

Huang Z, Liang D, Xu P, et al. Improve transformer models with better relative position embeddings[J]. arXiv preprint arXiv:2009.13658, 2020.

1. 提出观点: VanillaTransformer现有位置编码方式未能完全利用位置信息。（...that existing work does not fully utilize position information.） 2. 绝对位置编码用于模拟一个位置的token如何关注另一个位置的token。（The absolute position embedding is used to model how a token at one position attends to another token at a different position. ） 3. 作者认为在NSP任务中绝对位置不合理，应该使用相对位置。

该论文提出的方法，鲁棒性强，易于训练。
作者对方法4更有信心。

方法4相对位置编码可视化。我们选择方法4进行可视化，因为它是我们提出的方法中最有效和最准确的。

图4显示了方法4的第一层中第一个头的embbding权重，它是一个1023×64的矩阵，第一维是两个标记之间的相对距离，第二维是注意力维度。我们选择绘制[-50, 50]的相对位置，它集中了两个位置的接近性。我们注意到，相对位置为零的权重有很大的绝对值，要么是正值（白色），要么是负值（深蓝色）。这些大的绝对值可能导致方程（16）中大的eij值，这表明一个标记很可能会注意到近距离内的另一个标记。图5显示了方法4的第一转换层上12个头的平均注意力权重。我们显示了前50个Token之间的自我关注度。这清楚地表明，Token大量关注它们的邻居（对角线上的深蓝色），而对远处的Token的关注度几乎为零。这也解释了为什么一个小的k值对于相对位置embbding是足够的，因为超出这个范围的注意力权重接近于零。请注意，标示物对自己的关注度通常接近零。这似乎有悖常理，但可以用掩蔽语言模型（MLM）任务来解释，在该任务中，一个给定的标记的邻居（而不是标记本身）为该任务提供最有用的信息。

人话：Token对自己的关注度接近于0，这很反直觉，但可以从MLM的角度进行理解。