DeepGEMM：300行代码重构FP8矩阵运算，再掀AI算力革命｜GitHub Daily · 第13期

有深度/前沿 | 2026年4月23日

核心洞察：DeepGEMM以仅约300行CUDA代码，在NVIDIA Hopper架构上实现1350+ TFLOPS的FP8矩阵运算性能，比专家调优的CUTLASS 3.6快2.7倍，为大模型训练与推理提供了革命性的算力优化方案。

项目速览

信息	内容
项目名	DeepGEMM
开发者	DeepSeek AI
GitHub	deepseek-ai/DeepGEMM
Star数	6.5k+
语言	CUDA / Python
许可证	MIT
最近更新	2026-04-17 (Mega MoE + FP4 Indexer)

它能解决什么问题？

大模型训练与推理的瓶颈在于矩阵乘法（GEMM）——这是Transformer架构的核心运算，占据了90%以上的计算时间。传统FP16/BF16精度虽然保证了数值稳定性，但计算量大、显存占用高，当LLM参数量突破千亿级别时，"算不动"成为普遍困境。

DeepGEMM 提供了优雅的解决方案：通过FP8（8位浮点）精度换取算力提升，同时借助底层CUDA优化将精度损失控制在可接受范围内。

核心亮点

1. 极简代码，极致性能

DeepGEMM的核心逻辑仅约300行CUDA代码，却能在NVIDIA Hopper架构GPU上达到1350+ TFLOPS的FP8计算性能。这一表现比专家调优的CUTLASS 3.6实现快2.7倍，体现了DeepSeek团队对Hopper架构TMA（Tensor Memory Accelerator）的深度理解和极致优化。

2. 两级累加技术突破精度瓶颈

FP8的主要挑战在于累加精度不足。DeepSeek的创新解法包括：

CUDA核心二级累加：在Hopper张量核心基础上，引入CUDA核心计算层作为精度补偿机制
细粒度动态缩放：基于DeepSeek-V3论文技术，动态调整FP8数值范围，提升有效位数利用率

3. MoE模型专属优化

DeepGEMM不仅支持密集布局，还专为混合专家（MoE）模型优化了两种布局：

连续布局分组GEMM：专家共享相同形状时，通过块对齐实现1.2倍加速
掩码布局分组GEMM：适配CUDA Graph推理场景，解码阶段内存带宽达1405 GB/s

4. 全JIT即时编译

运行时动态生成最优内核，支持动态参数优化（块大小、流水线阶段），性能相比静态编译提升10%+。

5. 最新黑科技：Mega MoE + FP4

2026年4月16日，DeepGEMM发布重大更新：

Mega MoE：融合dispatch/linear/SwiGLU/combine为单一mega-kernel，重叠NVLink通信与张量核心计算
FP4 Indexer：支持FP8×FP4 GEMM，比FP8更激进的4位量化，推理效率再提升

性能实测

场景	典型参数
密集模型推理	M=64, N=2112, K=7168
MoE连续布局（4组）	M=8192, N=4096
大矩阵运算	M=4096, K=16384

性能指标	加速比
206 TFLOPS / 1688 GB/s	2.7x
1297 TFLOPS	1.2x
1358 TFLOPS	1.2x

上手指南

环境要求

GPU：NVIDIA H100/H800（sm_90a）
CUDA：12.8+（推荐）
Python：3.8+
PyTorch：2.1+

安装步骤

# 克隆仓库
git clone --recursive https://github.com/deepseek-ai/DeepGEMM
cd DeepGEMM

# 安装
python setup.py develop  # 开发模式
# 或
python setup.py install    # 生产环境

验证安装

import deep_gemm
print(deep_gemm.get_tma_aligned_size(1024))  # 检查TMA对齐

密集GEMM示例

import torch
from deep_gemm import gemm_op

# FP8 GEMM
A = torch.randn(64, 7168, dtype=torch.float16, device='cuda')
B = torch.randn(7168, 2112, dtype=torch.float16, device='cuda')
C = gemm_op(A, B)  # 自动FP8推理优化

今日总结：DeepGEMM再次证明好的代码不需要复杂。300行核心代码，1350+ TFLOPS性能，MIT许可证开源——DeepSeek用实际行动诠释了"大道至简"。对于AI Infra工程师来说，DeepGEMM是加速LLM推理的利器；对于CUDA学习者来说，它是理解Hopper架构TMA优化的最佳教科书。

栏目介绍

GitHub Daily 每日精选优质开源项目，带你发现提升效率与认知的工具。

往期回顾：

第01期 · NousResearch/hermes-agent
第02期 · microsoft/markitdown
第03期 · D4Vinci/Scrapling
第04期 · shiyu-coder/Kronos
第05期 · jamiepine/voicebox
第06期 · topoteretes/cognee
第07期 · lsdefine/GenericAgent
第08期 · tldraw
第09期 · Tracer-Cloud/opensre
第10期 · EvoMap/evolver
第11期 · BasedHardware/omi
第12期 · rustdesk/rustdesk

DeepGEMM：300行代码重构FP8矩阵运算，再掀AI算力革命 ｜GitHub Daily · 第13期