transformer的学习

transformer的学习

transformer的学习

整理了学习transformer的不理解的地方，以及学习的结果。详细理解了各个变量的形状大小。

暂无订阅共6篇文章创建于2025-08-15

transformer实战——mask

1 mask 我们的Transformer模型里面涉及两种mask。分别是padding mask和sequence mask。 padding mask在所有的scaled dot-product

8月前
234
点赞
评论

transformer实战——mask

transformer实战——encoder内的residual connection和Layer normalization

1 encoder的结构 encoder由6层相同的层组成每一层分别由两部分组成：第一部分是一个multi-head self-attention mechanism 第二部分是一个positio

8月前
154
点赞
评论

transformer实战——encoder内的residual connection和Layer normalization

transformer实战——多头注意力(Multi-head Attention)到底在干什么

1 多头注意力(Multi-head Attention) 1.1 X的形状为[seq_len,d_model] 定义一组Q,K,V可以让一个词 attend to相关的词，我们可以定义多组 Q,K,

8月前
174
点赞
评论

transformer实战——多头注意力(Multi-head Attention)到底在干什么

transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的？

1 点积注意力(Dot-Product Attention) 1.1 输入对于输入的句子 X，通过 WordEmbedding 得到该句子中每个字的字向量，同时通过 Positional Encod

8月前
256
点赞
评论

transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的？

transformer实战——Positional Encoding到底是什么样的？

1位置编码的理论部分 1.1 Positional Encoding的知识点位置编码是根据公式一次性计算出来的，它不是训练参数，也不是需要反向传播优化的内容。它就像一本查找表，里面存储了从位置 0

8月前
201
点赞
评论

transformer实战——Positional Encoding到底是什么样的？

transformer实战——模型的输入到底是什么？

1 输入数据经过input embedding的输出形式 1.1 训练的transformer的功能与初始的输入句子假设我们训练的transformer是德语转英语的功能。训练数据为两条德语的句子

8月前
147
1
评论

transformer实战——模型的输入到底是什么？