有关transformer那些事，两篇文章带你弄懂！（一）有关transformer那些事，两篇文章带你弄懂！（一） t

❝ 大家好，我是 Bob! 😊 一个想和大家慢慢变富的 AI 程序员💸 分享 AI 前沿技术、项目经验、面试技巧! 欢迎关注我，一起探索，一起破圈！💪

有关transformer那些事，两篇文章带你弄懂！（一）

先上图：

左半部分为输入分词向量嵌入层、N个Encoder

右边部分为当前位置输入层、N个Decoder、线性映射层

这一部分在上一篇文章已将讲过了：

link:

设定：

多头子注意力子层的作用是让模型能够同时关注输入序列中的不同位置，从而更好地理解输入序列的语义信息。多头子注意力子层的具体实现如下：

计算每一个input输入的QKV矩阵

同时一类Wq,Wk,Wv所关注的向量语义维度有限，一般采用多头注意力机制。也就是有多个 Wq,Wk,Wv。结果每一个input会得到多个注意力值（z1,z2,z3...zi）,将其拼接起来，多头注意力的结果为（num,d_k * head) 。

同时为了保证输入与输入的形状一致，我们会选择d_k * head=d_model。也就是如果d_model=512,d_k=64,我们选择8个head.得到的结果唯独就是（num,512）,与输入一致。

LayerNormalization( x + Sublayer(x) )

函数如下：

FFN(x)=MAX(0, x*W1 + b1) W2 + b2

请见下一篇！

请见下一篇！

后续文章：

期待一下吧！！

1.【Bob 的 AI 成长陪伴群】门票