zzz933

赞

27

|

搜索文章

transformer实战——mask

1 mask 我们的Transformer模型里面涉及两种mask。分别是padding mask和sequence mask。 padding mask在所有的scaled dot-product

2月前
121
点赞
评论

transformer实战——mask

transformer实战——encoder内的residual connection和Layer normalization

1 encoder的结构 encoder由6层相同的层组成每一层分别由两部分组成：第一部分是一个multi-head self-attention mechanism 第二部分是一个positio

2月前
61
点赞
评论

transformer实战——encoder内的residual connection和Layer normalization

transformer实战——多头注意力(Multi-head Attention)到底在干什么

1 多头注意力(Multi-head Attention) 1.1 X的形状为[seq_len,d_model] 定义一组Q,K,V可以让一个词 attend to相关的词，我们可以定义多组 Q,K,

2月前
46
点赞
评论

transformer实战——多头注意力(Multi-head Attention)到底在干什么

transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的？

1 点积注意力(Dot-Product Attention) 1.1 输入对于输入的句子 X，通过 WordEmbedding 得到该句子中每个字的字向量，同时通过 Positional Encod

2月前
59
点赞
评论

transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的？

transformer实战——Positional Encoding到底是什么样的？

1位置编码的理论部分 1.1 Positional Encoding的知识点位置编码是根据公式一次性计算出来的，它不是训练参数，也不是需要反向传播优化的内容。它就像一本查找表，里面存储了从位置 0

2月前
66
点赞
评论

transformer实战——Positional Encoding到底是什么样的？

transformer实战——模型的输入到底是什么？

1 输入数据经过input embedding的输出形式 1.1 训练的transformer的功能与初始的输入句子假设我们训练的transformer是德语转英语的功能。训练数据为两条德语的句子

2月前
57
1
评论

transformer实战——模型的输入到底是什么？

个人成就

文章被点赞 1

文章被阅读 410

加入于

2025-02-16