创作不易,方便的话点点关注,谢谢
文章结尾有最新热度的文章,感兴趣的可以去看看。
本文是经过严格查阅相关权威文献和资料,形成的专业的可靠的内容。全文数据都有据可依,可回溯。特别申明:数据和资料已获得授权。本文内容,不涉及任何偏颇观点,用中立态度客观事实描述事情本身
文章有点长(1700字阅读时长:5分),期望您能坚持看完,并有所收获。
我知道Transformers结构可能看起来很吓人,您可能在 YouTube 或博客上看到过各种解释。不过,在我的博客中,我将通过提供一个全面的数字示例来努力澄清它。通过这样做,我希望能简化对Transformers架构的理解。
输入和位置编码
让我们来解决初始部分的问题,在这一部分中,我们将确定我们的输入并计算它们的位置编码。
步骤 1(定义数据)
第一步是确定我们的数据集 在我们的数据集中,有 3 个摘自《权力的游戏》电视剧的句子(对话)。虽然这个数据集看起来很小,但它的规模实际上有助于我们利用即将到来的数学公式找出结果。
步骤 2(查找词汇量)
要确定词汇量的大小,我们需要确定数据集中唯一词语的总数。这对编码(即把数据转换成数字)至关重要。
其中,N 是一个包含所有单词的列表,每个单词都是一个单独的标记。
在获得以 N 表示的词块列表后,我们就可以运用公式计算词汇量的大小了。
使用集合操作有助于去除重复词,然后我们就可以计算唯一词的数量来确定词汇量。因此,词汇量为 23,因为给定列表中有 23 个唯一的单词。
步骤 3(编码和嵌入)
我们为数据集中的每个单词分配一个整数。
对整个数据集进行编码后,就是选择输入的时候了。我们先从语料库中选择一个句子:“When you play game of thrones”
输入的每个单词都将表示为一个编码整数,每个相应的整数值都将附加一个相关的嵌入。
这些嵌入可以通过 Google Word2vec(词的向量表示法)找到。在我们的数字示例中,我们假设每个词的嵌入向量都填充了介于(0 和 1)之间的随机值。
此外,原论文使用了 512 维的嵌入向量,而我们将考虑非常小的维度,即 5 维作为数值示例。
现在,每个词的嵌入都由一个维数为 5 的嵌入向量表示,其值由 Excel 函数 RAND() 用随机数填充。
步骤 4(位置嵌入)
让我们考虑第一个单词,即 "When",并计算它的位置嵌入向量。 位置嵌入有两个公式:
第一个词 "When "的 POS 值将为零,因为它对应的是序列的起始索引。此外,i 的值是偶数还是奇数,决定了计算 PE 值所使用的公式。维度值代表嵌入向量的维度,在本例中为 5。
继续计算位置嵌入,我们将为下一个单词 "you "赋予 1 的 pos 值,并继续递增序列中后续每个单词的 pos 值。
找到位置嵌入后,我们就可以将其与原始单词嵌入连接起来。
我们得到的结果向量是 e1+p1、e2+p2、e3+p3 的和,以此类推。
Transformers结构初始部分的输出是编码器的输入。
编码器
在编码器中,我们执行涉及查询、键和值矩阵的复杂操作。这些操作对于转换输入数据和提取有意义的表述至关重要。
在多头注意力机制中,单个注意力层由几个关键组件组成。这些组件包括
请注意,黄色方框代表单一注意力机制。之所以是多头注意,是因为存在多个黄色方框。在本数字示例中,我们只考虑上图中的一种(即单头注意力)。
步骤 1(进行单头注视)
注意层有三个输入端: Query 查询 Key 钥匙 Value 价值
在上图中,三个输入矩阵(粉色矩阵)代表的是上一步将位置嵌入添加到单词嵌入矩阵后得到的转置输出。
另一方面,线性权重矩阵(黄色、蓝色和红色)代表注意力机制中使用的权重。这些矩阵的列数不限,但行数必须与输入矩阵的列数相同,以便进行乘法运算。
在我们的例子中,我们将假设线性矩阵(黄色、蓝色和红色)包含随机权重。这些权重通常是随机初始化的,然后在训练过程中通过反向传播和梯度下降等技术进行调整。
因此,让我们计算一下(查询、键和值度量):
一旦我们在注意力机制中得到了查询、键和值矩阵,我们就可以继续进行额外的矩阵乘法运算。
现在,我们将结果矩阵与之前计算的值矩阵相乘:
如果我们有多个头部关注点,每个关注点产生一个维度为 (6x3) 的矩阵,那么下一步就是将这些矩阵连接起来。
下一步,我们将再次进行线性变换,与获取查询、键和值矩阵的过程类似。这种线性变换适用于从多头关注中获得的连接矩阵。
点个“在看”不失联
最新热门文章推荐:
国外C++程序员分享:2024/2025年C++是否还值得学习?
国外Python程序员分享:如何用Python构建一个多代理AI应用
国外CUDA程序员分享:2024年GPU编程CUDA C++(从环境安装到进阶技巧)
国外Python程序员分享:2024年NumPy高性能计算库(高级技巧)
外国人眼中的卢湖川:从大连理工到全球舞台,他的科研成果震撼世界!
外国人眼中的张祥雨:交大90后男神博士,3年看1800篇论文,还入选福布斯精英榜
参考文献:《图片来源网络》《Understanding Transformers: A Step-by-Step Math Example — Part 1》
本文使用 文章同步助手 同步