了解DeepSeek

402 阅读1分钟

DeepSeek

一条视频搞清楚DeepSeek为什么这么火?【含本地部署】

被“逼急”的中国团队,如何3天震塌硅谷AI帝国?

  1. DeepSeek的全资母公司是 幻方量化, HIGH-FLYER QUANT。
  2. 相关技术
  • MLA多层注意力架构
  • FP8混合精度训练框架
  • DualPipe跨节点通信
  • 无辅助损失的负载均衡策略
  • 跨节点全对全通信内核
  • MTP技术,Multi-Token Prediction,多令牌预测
  • 数据精筛
  • DeepSeek-R1蒸馏
  1. 上下文最大长度 64K ; 不支持多模态

Related Terms

toB: to business,面向企业的

toC: to consumer /kənˈsuːmər/,面向消费者的

percentile:n. 百分位,百分位数

MoE架构:Mixture of Experts,混合专家模型