首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Transformer学习
一个和另一个
创建于2024-05-09
订阅专栏
学习Trandformer 源码及其理论
暂无订阅
共6篇文章
创建于2024-05-09
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
稀疏Moe的并行训练
1. router_logits 是必须要返回的吗,如果不返回router_logits,JambaSparseMoeBlock还是稀疏的吗 router_logits 并不是必须要返回的,但它在 M
Transformer中query、key和value的状态为什么要是 contiguous?
Transformer中query、key和value的状态为什么要是 contiguousd值? 在阅读Transformer模型的相关代码时,会发现query、key和value都会有contig
Accuracy 和 Perscision 的联系和区别
精度就是误差,是指我可以很确定就测量出你的水平,准度是指你的真实水平是否达标。 Acceracy 衡量的是预测值和真实值之间的距离(绝对关系),而Precision衡量的是多次测量值之间的距离(相对关
DDP运行报错(单卡无错):ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitco
转载自: https://www.cnblogs.com/fireinstone/p/17352130.html 使用DDP时出现错误,但是单卡跑无错误。 错误记录如下: 一度以为是DDP的bug,仔
2 Transformer 模型的输入部分
2. Transformer 模型的输入部分 目标: 掌握文本嵌入层和位置编码层的作用 掌握文本嵌入层和位置编码层的实现过程 输入部分包含: 源文本嵌入层及其位置编码 目标文本嵌入层及其位置编码 2.
1 Transformer 总体架构
1.1 Transformer 总体架构 Transformer 总体架构可以分为四个部分: 输入部分 输出部分 编码器部分 解码器部分 输入部分包含: 源文本嵌入层和位置编码层; 目标文本嵌入层和其