LLM大模型窥探

LLM大模型窥探

LLM大模型窥探

大模型原理、推理等知识分享

暂无订阅共5篇文章创建于2025-02-16

DeepSeek-R1和FP8混合精度训练以及FP8量化实现

DeepSeek-R1 和 FP8 混合精度训练(译) 为什么我们要关注 FP8 训练？在 FP8 中工作有几个权衡 DeepSeek 的解决方案不同框架对 DeepSeek-V3_FP8 量化支

1年前
632
点赞
评论

DeepSeek-R1和FP8混合精度训练以及FP8量化实现

CUTLASS库中的尾声融合(Epilogue Fusion)和Epilogue Visitor Trees

CUTLASS 是什么？尾声阶段和 EVT 使用尾声（Epilogue）和 EVT DefaultEpilogue 内置 EVTs 对 EVT 的结构进行拆解分析更复杂的例子：二元交叉熵损失拓扑

1年前
1.6k
1
评论

CUTLASS库中的尾声融合(Epilogue Fusion)和Epilogue Visitor Trees

DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略

背景 Transformers 中的 MoE 具有辅助损失的负载均衡 DeepSeek 的辅助无损负载均衡评估性能与负载均衡超参数（Update Rate）的影响其它偏差更新规则总结这

1年前
439
1
评论

DeepSeek如何打破MoE中隐藏的瓶颈? 辅助无损负载均衡策略

DeepSeek-V3_DeepSeekMoE机制是什么？

背景知识 LLM 中的 MoE （Mixture-of-Experts） MoE 的好处和挑战知识专业化与知识共享 DeepSeekMoE 架构细粒度的专家细分共享专家隔离评估 DeepSee

1年前
351
2
评论

DeepSeek-V3_DeepSeekMoE机制是什么？

一文搞懂DeepSeek-V3_MLA注意力机制

DeepSeek-V3 介绍 Transformers 解码器中的 MHA Key-Value 缓存多查询注意力机制 (MQA) vs 分组查询注意力机制 (GQA) RoPE

1年前
1.5k
1
2

一文搞懂DeepSeek-V3_MLA注意力机制