首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
transformer的学习
zzz933
创建于2025-08-15
订阅专栏
整理了学习transformer的不理解的地方,以及学习的结果。详细理解了各个变量的形状大小。
暂无订阅
共6篇文章
创建于2025-08-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
transformer实战——mask
1 mask 我们的Transformer模型里面涉及两种mask。分别是padding mask和sequence mask。 padding mask在所有的scaled dot-product
transformer实战——encoder内的residual connection和Layer normalization
1 encoder的结构 encoder由6层相同的层组成 每一层分别由两部分组成: 第一部分是一个multi-head self-attention mechanism 第二部分是一个positio
transformer实战——多头注意力(Multi-head Attention)到底在干什么
1 多头注意力(Multi-head Attention) 1.1 X的形状为[seq_len,d_model] 定义一组Q,K,V可以让一个词 attend to相关的词,我们可以定义多组 Q,K,
transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的?
1 点积注意力(Dot-Product Attention) 1.1 输入 对于输入的句子 X,通过 WordEmbedding 得到该句子中每个字的字向量,同时通过 Positional Encod
transformer实战——Positional Encoding到底是什么样的?
1位置编码的理论部分 1.1 Positional Encoding的知识点 位置编码是根据公式一次性计算出来的,它不是训练参数,也不是需要反向传播优化的内容。它就像一本查找表,里面存储了从位置 0
transformer实战——模型的输入到底是什么?
1 输入数据经过input embedding的输出形式 1.1 训练的transformer的功能与初始的输入句子 假设我们训练的transformer是德语转英语的功能。 训练数据为两条德语的句子