五连击!DeepSeek开源周一文回顾

7 阅读4分钟

前言

2月底,当科技圈还在讨论OpenAI这次牙膏挤多少时,深度求索(DeepSeek)突然在X平台甩出一枚“重磅炸弹”——宣布启动为期五天的“开源周”,每天开源一项核心技术。

这场没有预热的活动,在短短几小时内引爆全球开发者社区。

现在,让我们一起回顾本次活动的精彩内容。

发布内容

第一天:FlashMLA

——GPU算力榨取

简介

针对英伟达Hopper GPU优化的高效MLA解码内核,通过动态分配算力提升显卡利用率,尤其擅长处理可变长度序列(如长/短文本),实测显示可显著降低长上下文推理成本,使翻译、内容生成等任务速度接近硬件极限。

技术

  • 动态显存资源分配
  • 优化KV Cache管理
  • 支持低精度 BF16/FP16

价值

在H800显卡上,内存带宽达3000GB/秒,算力接近580万亿次/秒,接近硬件极限。

第二天:DeepEP

——MoE模型通讯的高速公路

简介

首个面向MoE(混合专家)模型的开源通信库,协调多专家模型间的通信,减少延迟和资源消耗,支持FP8智能压缩传输,适用于分布式GPU环境的多节点训练。

技术

  • 优化的all-to-all通信
  • 支持NVLink/RDMA的节点内外通信
  • 高吞吐训练/推理预填充内核
  • 低延迟推理解码内核
  • FP8压缩传输
  • 通信与计算重叠

价值

训练万亿参数模型时,通信耗时从58%降至19%,中小团队也能低成本训练MoE模型。

第三天:DeepGEMM

——矩阵运算的极简美学

简介

矩阵乘法优化工具,通过FP8低精度计算提升速度,并利用CUDA技术修正误差,在Hopper GPU上实现1350+ TFLOPs性能,代码简洁(仅300行),适合快速部署。

技术

  • 无重度依赖,代码简洁(核心逻辑仅300行)
  • 全JIT编译
  • 支持密集矩阵和两种MoE布局

价值

填补了超低精度矩阵运算库的空白,适用于密集计算和MoE模型训练,显著降低AI核心计算的能耗与成本

第四天:DualPipe 与 EPLB

—— 并行训练与负载均衡的新生

简介

  • DualPipe:双向流水线并行算法,消除训练中的“流水线气泡”,通过重叠前向/后向计算与通信提升MoE模型训练效率。
  • EPLB:专家并行负载均衡器,自动分配GPU任务至空闲显卡,解决“忙闲不均”问题,优化资源利用率。

技术

  • DualPipe:双向流水线并行算法(实现计算-通信重叠)
  • EPLB:专家并行负载均衡器

价值

通过“并行”和“负载均衡”等传统优化算法,直观地实现大模型训练的效率提升,同时也为后续模型优化开拓了更多思路。

第五天:3FS

——大模型专用的文件系统

简介

基于SSD和RDMA的高性能并行文件系统,实现高速数据访问和自动化资源调取。

技术

  • 并行文件系统架构
  • 现代硬件深度优化
  • 解耦架构强一致性设计

价值

  • 180节点集群6.6TiB/s聚合读取带宽
  • 25节点集群3.66TiB/min排序吞吐
  • 单节点40+GiB/s KVCache查询峰值

开源周的意义

当行业疯狂追逐千亿参数时,DeepSeek为何要开源这些“枯燥”的底层技术?

  • 破解算力困局:通过软件优化高效利用现有GPU,同时兼容国产GPU,用“300行代码”对抗西方芯片封锁。

  • 打造技术生态:通过开源核心工具链(如FlashMLA、DeepEP、DeepGEMM等),重构AI硬件运行逻辑,挑战英伟达CUDA生态的软硬件耦合模式,推动国产AI发展。

  • 推动普惠AI:降低大模型训练门槛,让中小企业也能用上“国家队级”工具链。

总结

当我们在惊叹各类大模型惊艳的表现时,别忘了支撑这些奇迹的,是无数工程师在算力调度、通信优化、存储加速上的死磕。

正如网友所说:“OpenAI画出了火箭图纸,DeepSeek却默默造好了发射架。”