首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
zzz933
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
27
文章 27
沸点 0
赞
27
返回
|
搜索文章
最新
热门
transformer实战——mask
1 mask 我们的Transformer模型里面涉及两种mask。分别是padding mask和sequence mask。 padding mask在所有的scaled dot-product
transformer实战——encoder内的residual connection和Layer normalization
1 encoder的结构 encoder由6层相同的层组成 每一层分别由两部分组成: 第一部分是一个multi-head self-attention mechanism 第二部分是一个positio
transformer实战——多头注意力(Multi-head Attention)到底在干什么
1 多头注意力(Multi-head Attention) 1.1 X的形状为[seq_len,d_model] 定义一组Q,K,V可以让一个词 attend to相关的词,我们可以定义多组 Q,K,
transformer实战——点积注意力(Dot-Product Attention)到底是怎么执行的?
1 点积注意力(Dot-Product Attention) 1.1 输入 对于输入的句子 X,通过 WordEmbedding 得到该句子中每个字的字向量,同时通过 Positional Encod
transformer实战——Positional Encoding到底是什么样的?
1位置编码的理论部分 1.1 Positional Encoding的知识点 位置编码是根据公式一次性计算出来的,它不是训练参数,也不是需要反向传播优化的内容。它就像一本查找表,里面存储了从位置 0
transformer实战——模型的输入到底是什么?
1 输入数据经过input embedding的输出形式 1.1 训练的transformer的功能与初始的输入句子 假设我们训练的transformer是德语转英语的功能。 训练数据为两条德语的句子
个人成就
文章被点赞
1
文章被阅读
410
掘力值
46
关注了
1
关注者
1
收藏集
0
关注标签
2
加入于
2025-02-16