DeepGEMM:300行代码重构FP8矩阵运算,再掀AI算力革命 |GitHub Daily · 第13期

0 阅读4分钟

有深度/前沿 | 2026年4月23日


核心洞察:DeepGEMM以仅约300行CUDA代码,在NVIDIA Hopper架构上实现1350+ TFLOPS的FP8矩阵运算性能,比专家调优的CUTLASS 3.6快2.7倍,为大模型训练与推理提供了革命性的算力优化方案。

项目速览

信息

内容

项目名

DeepGEMM

开发者

DeepSeek AI

GitHub

deepseek-ai/DeepGEMM

Star数

6.5k+

语言

CUDA / Python

许可证

MIT

最近更新

2026-04-17 (Mega MoE + FP4 Indexer)

它能解决什么问题?

大模型训练与推理的瓶颈在于矩阵乘法(GEMM)——这是Transformer架构的核心运算,占据了90%以上的计算时间。传统FP16/BF16精度虽然保证了数值稳定性,但计算量大、显存占用高,当LLM参数量突破千亿级别时,"算不动"成为普遍困境。

DeepGEMM 提供了优雅的解决方案:通过FP8(8位浮点)精度换取算力提升,同时借助底层CUDA优化将精度损失控制在可接受范围内。

核心亮点

1. 极简代码,极致性能

DeepGEMM的核心逻辑仅约300行CUDA代码,却能在NVIDIA Hopper架构GPU上达到1350+ TFLOPS的FP8计算性能。这一表现比专家调优的CUTLASS 3.6实现快2.7倍,体现了DeepSeek团队对Hopper架构TMA(Tensor Memory Accelerator)的深度理解和极致优化。

2. 两级累加技术突破精度瓶颈

FP8的主要挑战在于累加精度不足。DeepSeek的创新解法包括:

  • CUDA核心二级累加:在Hopper张量核心基础上,引入CUDA核心计算层作为精度补偿机制
  • 细粒度动态缩放:基于DeepSeek-V3论文技术,动态调整FP8数值范围,提升有效位数利用率

3. MoE模型专属优化

DeepGEMM不仅支持密集布局,还专为混合专家(MoE)模型优化了两种布局:

  • 连续布局分组GEMM:专家共享相同形状时,通过块对齐实现1.2倍加速
  • 掩码布局分组GEMM:适配CUDA Graph推理场景,解码阶段内存带宽达1405 GB/s

4. 全JIT即时编译

运行时动态生成最优内核,支持动态参数优化(块大小、流水线阶段),性能相比静态编译提升10%+

5. 最新黑科技:Mega MoE + FP4

2026年4月16日,DeepGEMM发布重大更新:

  • Mega MoE:融合dispatch/linear/SwiGLU/combine为单一mega-kernel,重叠NVLink通信与张量核心计算
  • FP4 Indexer:支持FP8×FP4 GEMM,比FP8更激进的4位量化,推理效率再提升

性能实测

场景

典型参数

密集模型推理

M=64, N=2112, K=7168

MoE连续布局(4组)

M=8192, N=4096

大矩阵运算

M=4096, K=16384

性能指标

加速比

206 TFLOPS / 1688 GB/s

2.7x

1297 TFLOPS

1.2x

1358 TFLOPS

1.2x

上手指南

环境要求

  • GPU:NVIDIA H100/H800(sm_90a)
  • CUDA:12.8+(推荐)
  • Python:3.8+
  • PyTorch:2.1+

安装步骤

# 克隆仓库
git clone --recursive https://github.com/deepseek-ai/DeepGEMM
cd DeepGEMM

# 安装
python setup.py develop  # 开发模式
# 或
python setup.py install    # 生产环境

验证安装

import deep_gemm
print(deep_gemm.get_tma_aligned_size(1024))  # 检查TMA对齐

密集GEMM示例

import torch
from deep_gemm import gemm_op

# FP8 GEMM
A = torch.randn(64, 7168, dtype=torch.float16, device='cuda')
B = torch.randn(7168, 2112, dtype=torch.float16, device='cuda')
C = gemm_op(A, B)  # 自动FP8推理优化

今日总结:DeepGEMM再次证明好的代码不需要复杂。300行核心代码,1350+ TFLOPS性能,MIT许可证开源——DeepSeek用实际行动诠释了"大道至简"。对于AI Infra工程师来说,DeepGEMM是加速LLM推理的利器;对于CUDA学习者来说,它是理解Hopper架构TMA优化的最佳教科书。

相关链接

栏目介绍

GitHub Daily 每日精选优质开源项目,带你发现提升效率与认知的工具。

往期回顾:

  • 第01期 · NousResearch/hermes-agent
  • 第02期 · microsoft/markitdown
  • 第03期 · D4Vinci/Scrapling
  • 第04期 · shiyu-coder/Kronos
  • 第05期 · jamiepine/voicebox
  • 第06期 · topoteretes/cognee
  • 第07期 · lsdefine/GenericAgent
  • 第08期 · tldraw
  • 第09期 · Tracer-Cloud/opensre
  • 第10期 · EvoMap/evolver
  • 第11期 · BasedHardware/omi
  • 第12期 · rustdesk/rustdesk