揭秘Transformer:从注意力机制到信息聚合
前言
在自然语言处理领域,Transformer架构的诞生是一个里程碑事件。它不仅彻底改变了机器翻译、文本生成等任务的技术路线,也成为了今天大语言模型(如GPT、BERT)的核心基石。然而,Transformer内部究竟在做什么?为什么它比过去的循环神经网络更强大?本文将以通俗易懂的方式,逐步拆解Transformer的核心机制——从序列建模的根本难题,到注意力机制的诞生,再到多头自注意力和编码器-解码器结构。无论你是AI初学者还是从业者,都能从中获得清晰的理解。
一、文字序列的语义困境
一段文字中,每个词汇、每个细节都可能影响最终的语义理解。比如下面这段法律咨询对话:
用户:我结婚五年了,最近发现配偶有外遇。我们没有孩子,婚后共同买了房和一些存款。
法律顾问:您是否考虑过婚姻咨询?如果决定离婚,需要收集证据,包括通信记录、照片、视频等。
模型必须正确理解“外遇”“共同财产”“证据”等关键词,并推断出用户需要的是离婚法律建议,而不是情感咨询。这种多层次的语义依赖,对传统模型构成了巨大挑战。
1.1 旧方案:循环神经网络(RNN)的局限
在Transformer之前,RNN(Recurrent Neural Network)是处理序列数据的主流选择。它像人类阅读一样,逐词处理,每个时刻的输出依赖于上一时刻的“记忆”。但RNN有三个致命缺陷:
- 信息丢失:当句子较长时,较早出现的信息会在传递过程中逐渐衰减,模型“忘记”了开头的内容。
- 无法处理长序列:对于超过几十个词的句子,RNN的表现急剧下降。
- 不能并行计算:每个词必须等待前一个词处理完毕才能开始,导致训练速度极慢。
这些限制促使研究者寻找全新的序列建模方式。答案就是注意力机制。
二、注意力机制(Attention)——学会关注重点
注意力机制的核心思想非常简单:在预测一个输出时,让模型主动去“看”输入序列中所有位置,并给不同位置分配不同的关注权重。权重越大,表示那个位置对当前预测越重要。
2.1 QKV:查询、键、值
要理解注意力机制,必须认识三个基本元素:Q(Query,查询)、K(Key,键)、V(Value,值)。用一个经典的例子说明:
已知若干人的身高和体重数据:
(160cm, 50kg), (165cm, 55kg), (170cm, 60kg), (175cm, 65kg), (180cm, 70kg), (185cm, 75kg)
现在来了一个身高178cm的人,请预估他的体重。
直观做法是:找身高接近178cm的已知数据点(如175cm和180cm),给它们更高的“重视程度”,然后用它们的体重加权平均。这里:
- Q = 178cm(你要查询的目标)
- K = 每个已知人的身高(用来与Q比较相似度)
- V = 每个已知人的体重(真正需要的信息)
计算过程:Q与每个K做相似度计算,得到一组分数;用Softmax将分数转换为权重(总和为1);然后用权重乘以对应的V,最后求和得到预估体重。
核心结论:真正有价值的是V,而Q和K只决定了如何从V中提取信息。输出永远是V的加权求和。
2.2 什么是点乘(Dot Product)?
在Transformer的注意力机制中,衡量Q和K之间相似度的数学工具就是点乘(也称为点积、内积)。点乘是两个向量之间最基础的运算之一。
向量回顾:一个向量就是一串数字,比如[2, 3]表示二维空间中的一个点。向量的“长度”(模)可以通过勾股定理计算。
点乘的计算方式:对于两个长度相同的向量 (A = [a_1, a_2, ..., a_n]) 和 (B = [b_1, b_2, ..., b_n]),它们的点乘定义为: [ A \cdot B = a_1b_1 + a_2b_2 + ... + a_nb_n ] 也就是对应位置的数字相乘,再全部加起来。
点乘的几何意义:点乘的结果与两个向量的“方向相似度”密切相关:
- 如果两个向量方向相同(夹角0°),点乘 = 长度之积(最大);
- 如果两个向量垂直(夹角90°),点乘 = 0;
- 如果两个向量方向相反(夹角180°),点乘 = 负数。
因此,点乘值越大,表示两个向量在方向上越一致,即越相似。这正是注意力机制所需要的:让Q和K做点乘,得到相似度分数。
为什么不用欧氏距离?
欧氏距离越小表示越相似,而注意力机制习惯于“分数越大越相似”以便后续Softmax转换。点乘天然满足这一性质,且计算简单、可并行加速。另外,点乘还与向量的模长有关——模长越大,点乘越容易被放大,这有时会带来问题,因此实际使用中会先对向量做归一化,或者像缩放点积注意力那样除以 (\sqrt{d_k}) 来平衡。
2.3 相关度矩阵(Attention Score Matrix)——注意力的“全景图”
当我们有多个查询(例如一句话中的每个词都有自己的Q)和多个键(同样多的K)时,点乘操作会生成一个二维矩阵,这个矩阵就是相关度矩阵,也称为注意力分数矩阵。
矩阵的由来:
设序列长度为 (n),每个位置的Q和K都是 (d_k) 维向量。我们将所有Q堆叠成矩阵 (Q)(形状 (n \times d_k)),所有K堆叠成矩阵 (K)(形状 (n \times d_k))。那么 (Q K^T) 就是一个 (n \times n) 的矩阵,其中第 (i) 行第 (j) 列的元素等于第 (i) 个查询向量与第 (j) 个键向量的点乘:
[ (QK^T)_{ij} = Q_i \cdot K_j ]
直观理解:
- 行代表“谁在看”(查询者)。
- 列代表“被看的人”(键对应的位置)。
- 矩阵中的每个数值表示查询者对被看位置的“原始关注强度”(未经过Softmax归一化)。
缩放与归一化:
为了防止点乘值过大导致梯度饱和,每个元素除以 (\sqrt{d_k}),然后对每一行独立应用Softmax函数,得到注意力权重矩阵 (A):
[
A = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)
]
此时,(A) 的每一行的权重之和为1,表示每个查询位置对序列中所有位置的关注度分配。
相关度矩阵的作用:
- 可视化解释:将 (A) 以热力图形式展示,可以看到模型“看到了哪里”。例如在机器翻译中,源语言“apple”与目标语言“苹果”之间的格子会非常亮。
- 信息提取:最终输出 (O = A V),即每个查询位置的新向量是其他位置的值向量按行权重加权求和的结果。
- 诊断工具:如果某一行的权重分布非常均匀(无焦点),可能表示模型没有学到有效特征;如果权重集中在少数几个位置,则表示模型具有强选择性注意力。
示例:假设序列长度为3,词为“我 喜欢 苹果”。计算出的相关度矩阵 (QK^T) 可能是:
[
\begin{bmatrix}
2.1 & 0.5 & -0.2 \
0.8 & 3.0 & 0.9 \
0.1 & 1.2 & 2.5
\end{bmatrix}
]
经过Softmax后,第一行可能变成 ([0.7, 0.2, 0.1]),表示“我”主要关注自己(0.7),少量关注“喜欢”(0.2),几乎不关注“苹果”(0.1)。
在已有文章的基础上,我将在 第2.3节“相关度矩阵”之后 新增一个小节 “2.4 其他相似度度量:余弦距离与欧氏距离”,并将原来的2.4“缩放点积注意力”顺延为2.5。以下是新增内容的完整文本,可直接插入文章中对应位置。
2.4 其他相似度度量:余弦距离与欧氏距离
在讲解点乘作为相似度度量时,读者可能会问:还有没有其他衡量向量之间相似度的方法?答案是肯定的。最常用的两种替代方案是余弦相似度和欧氏距离。理解它们与点乘的关系,有助于深入认识注意力机制的设计选择。
2.4.1 欧氏距离(Euclidean Distance)
定义:欧氏距离就是我们最熟悉的“直线距离”。在二维平面上,两点之间的最短距离;在高维空间中,同样适用。
公式:对于两个向量 (A = [a_1, a_2, ..., a_n]) 和 (B = [b_1, b_2, ..., b_n]),欧氏距离为: [ \text{Euclidean}(A, B) = \sqrt{(a_1 - b_1)^2 + (a_2 - b_2)^2 + ... + (a_n - b_n)^2} ]
直观理解:想象两个点在地图上,欧氏距离就是它们之间的直线距离。距离越小,两个点越“接近”,即越相似。
在注意力机制中可用吗?
欧氏距离越小表示越相似,而注意力机制习惯于“分数越大越相似”(因为后续要用Softmax转换为权重)。若强行使用,需要额外转换(如取负或取倒数),增加计算复杂度。更重要的是,欧氏距离对向量的长度(模) 和方向都敏感。两个向量即使方向完全相同,但一个很长、一个很短,欧氏距离也会很大,这在许多语义场景中不合理(例如“很好”和“非常好”方向一致,仅程度不同,应视为相似)。因此,Transformer没有选用欧氏距离。
2.4.2 余弦相似度(Cosine Similarity)
定义:余弦相似度衡量两个向量的方向一致性,忽略向量的长度。
公式: [ \text{Cosine}(A, B) = \frac{A \cdot B}{|A| |B|} = \frac{\sum_{i=1}^{n} a_i b_i}{\sqrt{\sum_{i=1}^{n} a_i^2} \cdot \sqrt{\sum_{i=1}^{n} b_i^2}} ] 其中 (|A|) 是向量的模(长度)。
几何意义:余弦相似度等于两个向量夹角的余弦值。夹角为0°时,余弦=1(完全相似);夹角90°时,余弦=0(无关);夹角180°时,余弦=-1(完全相反)。
直观理解:只关心方向是否一致,不关心长度。例如,“跑”和“奔跑”方向相同,余弦相似度接近1;而“跑”和“停”方向相反,余弦相似度接近-1。
优点:不受向量长度影响,适合文本中词频差异大的情况(例如“好”出现1次和100次,方向一致,语义相似)。
为什么Transformer不用余弦相似度?
余弦相似度需要先计算每个向量的模长,再作除法。这会引入额外的计算开销,并且不利于矩阵化并行计算(因为模长计算涉及逐元素平方和开方,无法简洁地写成矩阵乘法)。而点乘直接基于 (QK^T) 矩阵乘法,GPU高度优化,速度快得多。此外,在Transformer中,向量的长度本身也携带信息(例如词向量的模可能反映词的重要性),点乘保留了长度信息,而余弦相似度丢弃了长度,这可能损失有用信号。
2.4.3 点乘 vs. 余弦相似度 vs. 欧氏距离:对比总结
| 度量方式 | 公式 | 取值范围 | 相似度与值的关系 | 是否考虑长度 | 能否矩阵并行 | Transformer使用? |
|---|---|---|---|---|---|---|
| 点乘 | (A \cdot B) | ((-\infty, +\infty)) | 越大越相似 | 是 | ✅ 极易 | ✅ 是 |
| 余弦相似度 | (\frac{A \cdot B}{|A||B|}) | ([-1, 1]) | 越大越相似 | 否 | ❌ 较难 | ❌ 否 |
| 欧氏距离 | (\sqrt{\sum (a_i - b_i)^2}) | ([0, +\infty)) | 越小越相似 | 是 | ❌ 较难 | ❌ 否 |
结论:点乘在表达力(保留长度信息)、计算效率(矩阵乘法)、与Softmax的兼容性(越大越相似)三方面取得了最佳平衡,因此被Transformer采纳为默认相似度度量。
补充说明:在某些Transformer变体中(如某些自监督学习模型),会对向量先做L2归一化(使模长为1),此时点乘等价于余弦相似度。但标准Transformer不做此操作。
2.5 缩放点积注意力
最终,完整的注意力计算公式为: [ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V ]
其中 (\frac{QK^T}{\sqrt{d_k}}) 就是缩放后的相关度矩阵,Softmax按行归一化后得到权重矩阵,再乘以 (V) 得到输出。
三、自注意力(Self-Attention)——信息聚合的核心
如果Q、K、V都来自同一个序列(例如一段话中的所有词),那么这种注意力称为自注意力。它的目标是:让序列中每个位置聚合其他所有位置的信息,更新自身的表示。
3.1 直观理解
想象一个学习小组,有1300名学员,每名学员用12288个数字表示他目前掌握的知识(高维向量)。自注意力机制模拟的是:每个学员查看其他所有学员的知识,根据相关性(例如哪些学员的知识和自己互补)来吸收对自己有用的部分,从而更新自己的知识向量。这里的“相关性”正是通过点乘计算的:学员A的Q与学员B的K做点乘,值越大表示B的知识对A越有用。
3.2 计算流程
- 输入序列:(X),形状为 (n \times d),其中 (n) 是序列长度(如1300),(d) 是每个词向量的维度(如12288)。
- 通过三个不同的权重矩阵 (W_q, W_k, W_v) 分别计算 Q、K、V: [ Q = X W_q,\quad K = X W_k,\quad V = X W_v ] 每个矩阵的尺寸为 (d \times d)(实际偏置项增加1维,故为 ((d+1) \times d),原理相同)。
- 计算相关度矩阵 (S = Q K^T / \sqrt{d_k}),形状 (n \times n)。其中 (Q K^T) 的每个元素就是对应位置的Q向量与K向量的点乘。
- 对S的每一行做Softmax,得到注意力权重矩阵 (A)(每行权重之和为1)。
- 输出 (O = A V),形状仍为 (n \times d)。
输出序列中每个位置的新向量,都包含了整个输入序列中所有位置的加权信息。这就是信息聚合。
3.3 自注意力的优点
- 长距离依赖:任意两个位置直接相连,不存在信息衰减。
- 并行计算:所有位置的Q、K、V可以一次性算出,底层用矩阵乘法高效实现。
- 灵活性:模型可以学习到关注哪些位置,无需人工设计。
四、多头自注意力(Multi-Head Self-Attention)——从不同视角观察
单次注意力只能学习一种“关联模式”。例如,在一个句子中,有的词需要关注语法主谓关系,有的词需要关注指代关系,有的词需要关注语义相似性。为了捕捉多种模式,多头注意力将Q、K、V投影到多个不同的子空间,在每个子空间独立计算注意力,最后将结果拼接起来。
4.1 工作原理
假设输入向量维度为 (d_{model}=12288),我们设置 (h=96) 个头。每个头首先将输入通过独立的 (W_q^{(i)}, W_k^{(i)}, W_v^{(i)}) 映射为维度 (d_k = d_{model}/h = 128) 的Q、K、V。然后在这128维的低维空间中计算注意力(同样使用点乘和相关度矩阵)。最后,将96个头输出的128维向量拼接成一个12288维的向量,再经过一个输出矩阵 (W_o) 做一次线性变换,得到最终的输出。
关于计算量的澄清:
多头注意力并未降低总计算量。单头注意力的计算量为 (O(n^2 \cdot d_{model}));多头注意力有 (h) 个头,每个头的计算量为 (O(n^2 \cdot d_k) = O(n^2 \cdot (d_{model}/h))),总和仍为 (O(n^2 \cdot d_{model}))。多头的真正优势在于:每个头在较低维的子空间中独立计算,能够学习到不同类型的特征依赖(如局部语法、长距离语义等),最终拼接结果提供了更丰富的表示能力。同时,低维空间的计算便于工程并行化,对硬件更友好。
4.2 为什么多头有效?
每个头可以关注不同种类的语义关系:
- 某些头关注邻近词(局部依赖)
- 某些头关注句子开头的词与结尾的词(长距离依赖)
- 某些头关注特定词性(如动词与名词的搭配)
多视角的丰富信息最终融合在一起,使模型的理解能力远超单头注意力。
五、前馈网络(Feed-Forward Network)——独立非线性变换
经过多头自注意力层后,每个位置已经聚合了全局信息。接下来,需要对每个位置独立地做一次非线性变换,增强模型的表达能力。这就是前馈网络(FFN),它由两个全连接层组成:
[ \text{FFN}(x) = \text{ReLU}(x W_1 + b_1) W_2 + b_2 ]
通常第一个全连接层将维度从 (d_{model}) 扩展到 (4 d_{model})(例如12288 → 49152),第二个层再压缩回 (d_{model})。这种“先升维后降维”的设计能捕获更复杂的特征。
关键点:FFN是在每个位置上独立运行的,位置之间不共享信息。它与自注意力层交替堆叠,形成深度网络。
六、编码器与解码器的区别
Transformer整体采用编码器-解码器(Encoder-Decoder)结构,两者在注意力机制的使用上有所不同。
| 组件 | 注意力类型 | 说明 |
|---|---|---|
| 编码器 | 多头自注意力 | 无掩码,每个词可以看到整句所有词 |
| 解码器 | 带掩码的多头自注意力 | 预测第 (t) 个词时,不能看到第 (t+1) 及之后的词(防止“作弊”) |
| 解码器 | 多头交叉注意力 | Q来自解码器,K、V来自编码器输出,用于对齐源文本和目标文本 |
6.1 掩码(Mask)的原理
在解码器的自注意力中,需要确保位置 (i) 只能与 (j \leq i) 的位置做注意力。这通过在相关度矩阵的上三角部分填充 (-\infty) 实现,Softmax后这些位置的权重变为0。
6.2 交叉注意力
解码器每一层都有一个交叉注意力模块,其中Q来自于解码器前一层的输出,而K和V来自于编码器的最终输出。这使得解码器在生成每个输出词时,都能“回顾”输入序列的完整信息,从而保证回答与问题相关。
七、不可或缺的辅助组件
除了上述核心模块,Transformer还依赖几个重要的辅助技术。
7.1 位置编码
自注意力机制本身是置换不变的——交换输入序列中两个词的位置,输出的对应向量也会被交换,但整个计算过程与顺序无关。然而,语言天然依赖顺序(“你爱我”与“我爱你”意思不同)。因此,必须向输入中加入位置信息。
原始Transformer使用固定正弦/余弦位置编码: [ PE_{(pos,2i)} = \sin(pos / 10000^{2i/d_{model}}), \quad PE_{(pos,2i+1)} = \cos(pos / 10000^{2i/d_{model}}) ] 将其加到输入向量上,模型就能区分不同位置。现代变体(如BERT、GPT)采用可学习的位置编码,但外推能力弱于正弦位置编码——不经过特殊设计时,无法直接推广到比训练长度更长的序列。
7.2 残差连接与层归一化
为了让深层网络能够稳定训练,Transformer为每个子层(自注意力、FFN)添加了残差连接和层归一化:
[ \text{Output} = \text{LayerNorm}(x + \text{Sublayer}(x)) ]
- 残差连接:将输入直接添加到子层输出上,使得梯度可以绕过子层直接传播,有效缓解梯度消失。
- 层归一化:对每个样本的特征维度做归一化(均值为0,方差为1),与批归一化不同,它不依赖batch大小,适用于变长序列。
八、从RNN到Transformer的进化
| 特性 | RNN | Transformer |
|---|---|---|
| 计算方式 | 顺序,一个词接一个词 | 并行,整句同时计算 |
| 长距离依赖 | 随距离指数衰减 | 恒定,任意距离直接连接 |
| 每层时间复杂度 | (O(n \cdot d^2)) | (O(n^2 \cdot d)) |
| 是否可并行 | 否 | 是 |
| 顺序归纳偏置 | 强(天然顺序) | 无(需位置编码) |
注:两种模型中的 (d) 含义不同。RNN 的 (d) 通常为几百,Transformer 的 (d) 可达数千甚至上万,因此实际计算量 Transformer 更大,但得益于 GPU 并行加速,训练速度反而更快。
注意:(O(n^2 \cdot d)) 在 (n) 很大时成为瓶颈,因此研究者发展出稀疏注意力、线性注意力等变体(如Longformer、Linformer)。这些变体通常会改造点乘的计算方式(如使用核方法、低秩分解等)来降低复杂度。
九、总结
Transformer的本质是一套信息聚合框架。自注意力机制允许序列中每个位置动态地、并行地聚合所有其他位置的信息,其中点乘是衡量位置间相似度的核心数学工具,而由点乘构成的相关度矩阵则是注意力模式的“全景图”,决定了信息流动的路径;多头扩展了这种聚合的视角;前馈网络对聚合后的信息进行独立加工;位置编码弥补了顺序信息的缺失;残差连接和层归一化保证了深度训练的可能。编码器负责理解输入,解码器负责生成输出,两者通过交叉注意力紧密配合。
今天,从ChatGPT到Claude,几乎所有主流大语言模型都基于Transformer或其变体。理解它的原理,就等于握住了当代人工智能的一把核心钥匙。
附录A:术语对照表
| 中文术语 | 英文术语 | 简要解释 |
|---|---|---|
| 注意力机制 | Attention | 动态分配权重,突出重要信息 |
| 查询 | Query (Q) | 用于与键匹配的向量 |
| 键 | Key (K) | 与查询计算相似度的向量 |
| 值 | Value (V) | 需要加权提取的信息 |
| 点乘 / 点积 | Dot Product | 两个向量对应元素相乘后求和,用于衡量相似度 |
| 相关度矩阵 | Attention Score Matrix | Q与K的点乘结果构成的矩阵,表示所有查询-键对的原始相似度 |
| 注意力权重矩阵 | Attention Weight Matrix | 对相关度矩阵每行Softmax后得到的矩阵,每行权重和为1 |
| 自注意力 | Self-Attention | 序列内部元素之间的注意力 |
| 多头注意力 | Multi-Head Attention | 多个注意力头并行,捕获不同关系 |
| 缩放点积 | Scaled Dot-Product | 注意力分数除以√d_k,防止梯度饱和 |
| 前馈网络 | Feed-Forward Network (FFN) | 每个位置独立的非线性层 |
| 编码器 | Encoder | 负责理解输入序列的模块 |
| 解码器 | Decoder | 负责生成输出序列的模块 |
| 掩码 | Mask | 屏蔽未来位置的注意力 |
| 交叉注意力 | Cross-Attention | 解码器关注编码器输出的注意力 |
| 位置编码 | Positional Encoding | 注入位置信息的向量 |
| 残差连接 | Residual Connection | 输入与输出相加,帮助梯度流动 |
| 层归一化 | Layer Normalization | 归一化特征维度,稳定训练 |
| 向量 | Vector | 一组数字,用于表示词或特征 |
| 维度 | Dimension | 向量的长度 |
| Softmax | Softmax | 将分数转换为概率分布的函数 |
| 并行计算 | Parallel Computation | 同时进行多个计算,提升效率 |
附录B:核心公式汇总
-
点乘(向量形式)
[ A \cdot B = \sum_{i=1}^{n} a_i b_i ] -
相关度矩阵(未缩放)
[ S = Q K^T \quad \text{其中} \quad S_{ij} = Q_i \cdot K_j ] -
缩放点积注意力
[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V ] -
多头注意力
[ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h) W^O ]
[ \text{head}_i = \text{Attention}(Q W_i^Q, K W_i^K, V W_i^V) ] -
前馈网络
[ \text{FFN}(x) = \max(0, xW_1 + b_1) W_2 + b_2 ] -
残差连接+层归一化
[ \text{Output} = \text{LayerNorm}(x + \text{Sublayer}(x)) ] -
正弦位置编码
[ PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right),\quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right) ]
附录C:参考文献
一、原始论文
[1] Vaswani, A., et al. Attention Is All You Need. Advances in Neural Information Processing Systems, 2017. arXiv:1706.03762
本文为Transformer架构的原始论文,首次提出完全基于注意力机制的序列转导模型,摒弃了传统的循环神经网络和卷积神经网络结构。截至目前,该论文已被引用超过 11 万次(Google Scholar, 2026年4月),成为开启大模型时代的里程碑式工作。
二、学术综述论文
[2] Tay, Y., Dehghani, M., Bahri, D., & Metzler, D. Efficient Transformers: A Survey. ACM Computing Surveys, 55(6), 2023.
[3] Lin, T., Wang, Y., Liu, X., & Qiu, X. A Survey of Transformers. AI Open, 3, 111–132, 2022.
[4] Han, K., et al. A Survey on Vision Transformer. IEEE TPAMI, 2022. arXiv:2012.12556
[5] 宗成庆等. Transformer模型:从机器翻译到其他任务的通用框架. 自动化学报, 2023.
[6] Ferrando, J., & Voita, E. Information Flow in Transformers: A Survey. arXiv:2309.05909, 2023.
[7] Voita, E., et al. Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting. ACL, 2019.
[8] Kim, S., et al. Efficient Attention Mechanisms for Large Language Models: A Survey. arXiv:2507.25788, 2025.
[9] Fournier, Q., et al. Sparse Attention in Large Language Models: A Survey. arXiv:2506.05883, 2025.
[10] Child, R., et al. Generating Long Sequences with Sparse Transformers. arXiv:1904.10509, 2019.
[11] Khan, S., et al. Transformers in Vision: A Survey. ACM Computing Surveys, 54(10s), 1–41, 2022.
[12] Karimi, S., et al. A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks. Expert Systems with Applications, 2023.
[13] Xu, P., et al. Transformers in Medical Image Segmentation: A Review. arXiv:2301.01267, 2023.
三、行业报告与技术生态
- Wolf, T., et al. “Transformers: State-of-the-Art Natural Language Processing”. EMNLP 2020 (Hugging Face Transformers 库).
- OpenAI. GPT-3: Language Models are Few-Shot Learners. 2020.
- Google AI Blog. 关于Transformer并行训练、稀疏注意力、混合专家模型(MoE)等相关系统优化与大型模型工程实践总结。
- 机器之心. 《Transformer论文引用破4万,两位作者离开谷歌创业》(2022)。
- 科技新闻. 《五年时间被引用3.8万次,Transformer宇宙发展成了这样》(2023)。
本文基于课程内容《揭秘Transformer的真面目2》整理,兼顾专业性与可读性,希望能为您理解Transformer架构提供清晰的路径。