本文已参与「新人创作礼」活动,一起开启掘金创作之路。
- Shaw P, Uszkoreit J, Vaswani A. Self-attention with relative position representations[J]. arXiv preprint arXiv:1803.02155, 2018.
- 结合相对位置和绝对位置表征,翻译质量没有进一步提高。
- 英德互译实验结果
- In our experiments we did not observe any benefit from including sinusoidal position encodings in addition to relative position representations.
- Huang Z, Liang D, Xu P, et al. Improve transformer models with better relative position embeddings[J]. arXiv preprint arXiv:2009.13658, 2020.
1. 提出观点: VanillaTransformer现有位置编码方式未能完全利用位置信息。 (...that existing work does not fully utilize position information.) 2. 绝对位置编码用于模拟一个位置的token如何关注另一个位置的token。 (The absolute position embedding is used to model how a token at one position attends to another token at a different position. ) 3. 作者认为在NSP任务中绝对位置不合理,应该使用相对位置。
-
该论文提出的方法,鲁棒性强,易于训练。
-
作者对方法4更有信心。
方法4相对位置编码可视化。 我们选择方法4进行可视化,因为它是我们提出的方法中最有效和最准确的。
图4显示了方法4的第一层中第一个头的embbding权重,它是一个1023×64的矩阵,第一维是两个标记之间的相对距离,第二维是注意力维度。我们选择绘制[-50, 50]的相对位置,它集中了两个位置的接近性。我们注意到,相对位置为零的权重有很大的绝对值,要么是正值(白色),要么是负值(深蓝色)。这些大的绝对值可能导致方程(16)中大的eij值,这表明一个标记很可能会注意到近距离内的另一个标记。图5显示了方法4的第一转换层上12个头的平均注意力权重。我们显示了前50个Token之间的自我关注度。这清楚地表明,Token大量关注它们的邻居(对角线上的深蓝色),而对远处的Token的关注度几乎为零。这也解释了为什么一个小的k值对于相对位置embbding是足够的,因为超出这个范围的注意力权重接近于零。请注意,标示物对自己的关注度通常接近零。这似乎有悖常理,但可以用掩蔽语言模型(MLM)任务来解释,在该任务中,一个给定的标记的邻居(而不是标记本身)为该任务提供最有用的信息。
人话:Token对自己的关注度接近于0,这很反直觉,但可以从MLM的角度进行理解。