青训营X豆包MarsCode 技术训练营第一课 | 豆包MarsCode AI 刷题

44 阅读2分钟

Transformer 结构 1.稀疏 Transformer 稀疏 Transfomer 的思想基础 Sparse Transformer 的核心实际上SparseSelf-Attention (稀疏自注意力机制)。

请补全这条语句:掘金社区是一个便捷的技术交流______

在这条文本中,想要补全最终的语句,应当参考前文的信息,而前文总共 14 个字,对空格处影响最大的是掘金两个字,而像形容词便捷的,系词是一个都不是最关键的影响因素。换句话说,我们应当设计一种注意力机制,让模型能够在输出空格字符的时候,最大限度地注意到掘金两个字。 稀疏 Transformer 的本质,就是选择不计算某些 token 位置的注意力值。 2.多头(multi-head)注意力机制 3.Normalization 正规化 Dropout 机制 在 Transformer 结构图所示,在每一个 Attention 模块接入之前,都有一个dropout 模块。这个模块的主要功能是防止模型在训练过程中的过拟合。过拟合( O verfitting) ,是指模型在训练数据上表现良好,但在测试数据上表现较差的现象。简单来说,过拟合就是模型过于复杂,以至于在训练数据上表现得非常好,但在新数据上的泛化能力却很差。过拟合通常是由于模型过于复杂,或者训练数据过少导致的。当模型过于复杂时,它会尝试去适应训练数据中的每一个细节,甚至是噪声,导致在新数据上的表现不佳。而当训练数据过少时,模型可能无法学习到足够的特征,也会导致过拟合。ResNet 残差模块 在 Transformer 结构图中,Attention 模块的输入 embed 和输出结果有一个叠加,这种叠加操作被称为残差模块。之所以这么操作,主要是为了方便模型的训练过程中,梯度不会消失或爆炸。其本质目的在于顺利使模型完成训练,达到目标效果。 4.ResNet 残差模块 在 Transformer 结构图中,Attention 模块的输入 embed 和输出结果有一个叠加,这种叠加操作被称为残差模块。之所以这么操作,主要是为了方便模型的训练过程中,梯度不会消失或爆炸。其本质目的在于顺利使模型完成训练,达到目标效果。 5.Linear Feed-forward 全连接层 全连接层,就像在之前内容中为 Q、K、V 添加参数,实现了一个模型参数的扩增。 W 就是要学习的参数。这个步骤就是 Linear Feed-forward 层,中文名又叫线性全连接层,核心即矩阵乘法运算。这一步的主要作用在于为模型增加参数,增强模型的拟合能力。