有深度/前沿 | 2026年4月23日
核心洞察:DeepGEMM以仅约300行CUDA代码,在NVIDIA Hopper架构上实现1350+ TFLOPS的FP8矩阵运算性能,比专家调优的CUTLASS 3.6快2.7倍,为大模型训练与推理提供了革命性的算力优化方案。
项目速览
信息 | 内容 |
项目名 | DeepGEMM |
开发者 | DeepSeek AI |
GitHub | deepseek-ai/DeepGEMM |
Star数 | 6.5k+ |
语言 | CUDA / Python |
许可证 | MIT |
最近更新 | 2026-04-17 (Mega MoE + FP4 Indexer) |
它能解决什么问题?
大模型训练与推理的瓶颈在于矩阵乘法(GEMM)——这是Transformer架构的核心运算,占据了90%以上的计算时间。传统FP16/BF16精度虽然保证了数值稳定性,但计算量大、显存占用高,当LLM参数量突破千亿级别时,"算不动"成为普遍困境。
DeepGEMM 提供了优雅的解决方案:通过FP8(8位浮点)精度换取算力提升,同时借助底层CUDA优化将精度损失控制在可接受范围内。
核心亮点
1. 极简代码,极致性能
DeepGEMM的核心逻辑仅约300行CUDA代码,却能在NVIDIA Hopper架构GPU上达到1350+ TFLOPS的FP8计算性能。这一表现比专家调优的CUTLASS 3.6实现快2.7倍,体现了DeepSeek团队对Hopper架构TMA(Tensor Memory Accelerator)的深度理解和极致优化。
2. 两级累加技术突破精度瓶颈
FP8的主要挑战在于累加精度不足。DeepSeek的创新解法包括:
- CUDA核心二级累加:在Hopper张量核心基础上,引入CUDA核心计算层作为精度补偿机制
- 细粒度动态缩放:基于DeepSeek-V3论文技术,动态调整FP8数值范围,提升有效位数利用率
3. MoE模型专属优化
DeepGEMM不仅支持密集布局,还专为混合专家(MoE)模型优化了两种布局:
- 连续布局分组GEMM:专家共享相同形状时,通过块对齐实现1.2倍加速
- 掩码布局分组GEMM:适配CUDA Graph推理场景,解码阶段内存带宽达1405 GB/s
4. 全JIT即时编译
运行时动态生成最优内核,支持动态参数优化(块大小、流水线阶段),性能相比静态编译提升10%+。
5. 最新黑科技:Mega MoE + FP4
2026年4月16日,DeepGEMM发布重大更新:
- Mega MoE:融合dispatch/linear/SwiGLU/combine为单一mega-kernel,重叠NVLink通信与张量核心计算
- FP4 Indexer:支持FP8×FP4 GEMM,比FP8更激进的4位量化,推理效率再提升
性能实测
场景 | 典型参数 |
密集模型推理 | M=64, N=2112, K=7168 |
MoE连续布局(4组) | M=8192, N=4096 |
大矩阵运算 | M=4096, K=16384 |
性能指标 | 加速比 |
206 TFLOPS / 1688 GB/s | 2.7x |
1297 TFLOPS | 1.2x |
1358 TFLOPS | 1.2x |
上手指南
环境要求
- GPU:NVIDIA H100/H800(sm_90a)
- CUDA:12.8+(推荐)
- Python:3.8+
- PyTorch:2.1+
安装步骤
# 克隆仓库
git clone --recursive https://github.com/deepseek-ai/DeepGEMM
cd DeepGEMM
# 安装
python setup.py develop # 开发模式
# 或
python setup.py install # 生产环境
验证安装
import deep_gemm
print(deep_gemm.get_tma_aligned_size(1024)) # 检查TMA对齐
密集GEMM示例
import torch
from deep_gemm import gemm_op
# FP8 GEMM
A = torch.randn(64, 7168, dtype=torch.float16, device='cuda')
B = torch.randn(7168, 2112, dtype=torch.float16, device='cuda')
C = gemm_op(A, B) # 自动FP8推理优化
今日总结:DeepGEMM再次证明好的代码不需要复杂。300行核心代码,1350+ TFLOPS性能,MIT许可证开源——DeepSeek用实际行动诠释了"大道至简"。对于AI Infra工程师来说,DeepGEMM是加速LLM推理的利器;对于CUDA学习者来说,它是理解Hopper架构TMA优化的最佳教科书。
相关链接
- GitHub:github.com/deepseek-ai…
- DeepSeek开源系列:github.com/deepseek-ai
栏目介绍
GitHub Daily 每日精选优质开源项目,带你发现提升效率与认知的工具。
往期回顾:
- 第01期 · NousResearch/hermes-agent
- 第02期 · microsoft/markitdown
- 第03期 · D4Vinci/Scrapling
- 第04期 · shiyu-coder/Kronos
- 第05期 · jamiepine/voicebox
- 第06期 · topoteretes/cognee
- 第07期 · lsdefine/GenericAgent
- 第08期 · tldraw
- 第09期 · Tracer-Cloud/opensre
- 第10期 · EvoMap/evolver
- 第11期 · BasedHardware/omi
- 第12期 · rustdesk/rustdesk