首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
SteveForever
掘友等级
SteveForver,互联网大厂程序员,热爱编程和阅读,学无止境 知乎:SteveForver 公众号:陆吾穷奇篇, 能同途偶遇在这星球上,探索、记录、享受…
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
SteveForever
7月前
关注
DeepSeek-R1和FP8混合精度训练以及FP8量化实现
DeepSeek-R1 和 FP8 混合精度训练(译) 为什么我们要关注 FP8 训练? 在 FP8 中工作有几个权衡 DeepSeek 的解决方案 不同框架对 DeepS...
0
评论
分享
SteveForever
8月前
关注
CUTLASS库中的尾声融合(Epilogue Fusion)和Epilogue Visitor Trees
CUTLASS 是什么? 尾声阶段和 EVT 使用尾声(Epilogue)和 EVT DefaultEpilogue 内置 EVTs 对 EVT 的结构进行拆解分析 更复杂...
1
评论
分享
SteveForever
8月前
关注
DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略
背景 Transformers 中的 MoE 具有辅助损失的负载均衡 DeepSeek 的辅助无损负载均衡 评估 性能与负载均衡 超参数 (Update Rate) 的影响...
1
评论
分享
SteveForever
8月前
关注
DeepSeek-V3_DeepSeekMoE机制是什么?
背景知识 LLM 中的 MoE (Mixture-of-Experts) MoE 的好处和挑战 知识专业化与知识共享 DeepSeekMoE 架构 细粒度的专家细分 共享专...
2
评论
分享
SteveForever
8月前
关注
一文搞懂DeepSeek-V3_MLA注意力机制
DeepSeek-V3 介绍 Transformers 解码器中的 MHA Key-Value 缓存 多查询注意力机制 (MQA) vs 分组查询注意力机制 (GQA) R...
1
2
分享
SteveForever
关注了
宫水三叶的刷题日记
个人成就
文章被点赞
5
文章被阅读
2,816
掘力值
137
关注了
1
关注者
2
收藏集
0
关注标签
0
加入于
2022-11-06