首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LLM大模型窥探
SteveForever
创建于2025-02-16
订阅专栏
大模型原理、推理等知识分享
暂无订阅
共5篇文章
创建于2025-02-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
DeepSeek-R1和FP8混合精度训练以及FP8量化实现
DeepSeek-R1 和 FP8 混合精度训练(译) 为什么我们要关注 FP8 训练? 在 FP8 中工作有几个权衡 DeepSeek 的解决方案 不同框架对 DeepSeek-V3_FP8 量化支
CUTLASS库中的尾声融合(Epilogue Fusion)和Epilogue Visitor Trees
CUTLASS 是什么? 尾声阶段和 EVT 使用尾声(Epilogue)和 EVT DefaultEpilogue 内置 EVTs 对 EVT 的结构进行拆解分析 更复杂的例子:二元交叉熵损失 拓扑
DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略
背景 Transformers 中的 MoE 具有辅助损失的负载均衡 DeepSeek 的辅助无损负载均衡 评估 性能与负载均衡 超参数 (Update Rate) 的影响 其它偏差更新规则 总结 这
DeepSeek-V3_DeepSeekMoE机制是什么?
背景知识 LLM 中的 MoE (Mixture-of-Experts) MoE 的好处和挑战 知识专业化与知识共享 DeepSeekMoE 架构 细粒度的专家细分 共享专家隔离 评估 DeepSee
一文搞懂DeepSeek-V3_MLA注意力机制
DeepSeek-V3 介绍 Transformers 解码器中的 MHA Key-Value 缓存 多查询注意力机制 (MQA) vs 分组查询注意力机制 (GQA) RoPE