DeepSeek
- DeepSeek的全资母公司是
幻方量化, HIGH-FLYER QUANT。 - 相关技术
- MLA多层注意力架构
- FP8混合精度训练框架
- DualPipe跨节点通信
- 无辅助损失的负载均衡策略
- 跨节点全对全通信内核
- MTP技术,Multi-Token Prediction,多令牌预测
- 数据精筛
- DeepSeek-R1蒸馏
- 上下文最大长度 64K ; 不支持多模态
Related Terms
toB: to business,面向企业的
toC: to consumer /kənˈsuːmər/,面向消费者的
percentile:n. 百分位,百分位数
MoE架构:Mixture of Experts,混合专家模型