每日开源 · 2026.04.26
当大多数人还在讨论大模型的 API 调用时,DeepSeek 悄悄把支撑它飞速运转的"发动机零件"全部开源了。
TileKernels——一套完全用 Python 编写、却能榨干 H100/B200 性能极限的高性能 GPU 算子库,本周正式登上 GitHub Trending。
📋****项目速览
项目名****TileKernels
作者DeepSeek AI(深度求索)
开源时间2026 年 4 月 22 日
Stars⭐ 1,200+(GitHub Trending 热榜)
协议MIT License(完全开源可商用)
语言Python 100%(基于 TileLang DSL)
仓库github.com/deepseek-ai/TileKernels
MoE
Routing****FP4
量化
Engram
记忆门控
TileLang
DSLH100 / B200DeepSeek V4 预告
🔍****它能解决什么问题?
痛点一:CUDA C++ 又难写又慢迭代
传统写高性能 GPU 算子必须用 CUDA C++,门槛极高,调试周期长,工程师花大量时间在底层细节而非算法创新。
痛点二:通用框架无法对 LLM 特殊操作极致优化
MoE 路由、Engram 门控、流形超连接等 LLM 特有操作,cuBLAS/cuDNN 等通用库往往留有大量性能空间。
痛点三:研究与工程落地之间的巨大鸿沟
论文里漂亮的算法,要优化到 GPU 硬件级别往往需要数月工程时间,严重拖慢迭代速度。
TileKernels 的答案是:用 Python 描述算法逻辑,用 TileLang DSL 自动生成逼近硬件上限的机器码。 既保留了 Python 的可读性,又实现了手写 CUDA C++ 才能达到的性能——鱼与熊掌,DeepSeek 全都要。
✨****核心亮点(详细展开)
-
1
Python 写内核,性能逼近硬件极限
基于 TileLang(面向高性能 GPU 计算的领域专用语言),用纯 Python 语法表达底层算子。大多数内核在计算强度和内存带宽两个维度均已接近 H100/B200 的物理上限,彻底打破"Python 就是慢"的刻板印象。 -
2
涵盖 LLM 全链路核心操作
MoE 路由(Top-k 专家选择 + Token 映射 + 融合扩展归约)、FP8/FP4/E5M6 量化(Per-token / Per-block / Per-channel)、批量转置、SwiGLU 融合量化……每一个都是大模型训练与推理的关键路径。 -
3
Engram + mHC:DeepSeek V4 架构剧透
代码中出现两个神秘模块——**Engram(记忆门控)**暗示 V4 将引入类脑记忆调度架构;**mHC(流形超连接)**揭示层间连接将采用全新的流形拓扑逻辑。这是 DeepSeek V4 架构的首次"代码级预告",意义不凡。 -
4
生产环境实战验证
项目明确指出这些内核已用于 DeepSeek 内部的训练和推理场景,不是实验性代码,而是经过实战检验的生产级算子库,稳定性有真实保障。 -
5
与 PyTorch 深度集成
提供高级torch.autograd.Function封装,无缝接入现有 PyTorch 训练流程,支持完整的前向/反向传播及权重梯度归约,开箱即用。
🎯****实战场景展示
🏭
大模型训练加速
MoE 训练中 MoE Routing + Engram Gating 组合使用,减少显存碎片,大幅提升训练吞吐量
⚡
推理极限压榨
FP4 量化 + 融合 SwiGLU 内核,在 B200 上实现比标准路径高出数倍的 tokens/s 速度
🔬
新架构快速验证
基于 mHC 流形超连接算子,加速研究新型层间连接方式对模型质量影响的对比实验
🛠️
自定义算子开发
参考 TileLang DSL 实现范式,用 Python 快速开发自己的高性能 GPU 算子,无需 CUDA C++
🚀****上手指南
环境要求:Python 3.10+,PyTorch 2.10+,TileLang 0.1.9+,NVIDIA SM90/SM100 架构 GPU(H100 / B200)
安装方式
# 正式版安装
pip
install tile-kernels
# 开发版(推荐研究者使用)
git
clone https://github.com/deepseek-ai/TileKernels
cd
TileKernels
pip
install -e
".[dev]"
调用 MoE Routing 内核示例
import
torch
from
tile_kernels.moe
import
moe_routing, topk_gating
# hidden_states shape: [batch, seq_len, hidden_dim]
hidden_states = torch.randn(2, 512, 4096, device=
"cuda"
, dtype=torch.float16) gate_logits = torch.randn(2, 512, 64, device=
"cuda"
)
# Top-2 专家选择,已接近 H100 硬件带宽上限
expert_idx, expert_w = topk_gating(gate_logits, k=2) out = moe_routing(hidden_states, expert_idx, expert_w)
print
(out.shape)
# torch.Size([2, 512, 4096])
使用 Engram 门控层(直接插入 PyTorch 模型)
from
tile_kernels.modeling
import
EngramGatingLayer
# 作为 nn.Module 直接插入模型,支持 autograd
layer = EngramGatingLayer(hidden_dim=4096,
memory_slots=256).cuda()
x = torch.randn(2, 512, 4096, device=
"cuda"
,
dtype=torch.bfloat16) out = layer(x)
# 可直接 .backward()
💡****今日总结
🎯 一句话总结
TileKernels 是 DeepSeek 的"底层发动机图纸"全面开源:用 Python 写出逼近硬件极限的 GPU 算子, 同时剧透了 V4 的 Engram 记忆门控与 mHC 流形超连接架构。 对 AI 系统工程师来说,这是比大模型本身更值得深读的技术资产。
从 DeepEP(专家并行通信库)到 TileKernels(GPU 算子库),DeepSeek 正在将整个 LLM 基础设施栈逐步开源。这种"全栈自研 + 全量开放"的策略,不仅是技术实力的展示,也在重塑 AI 基础设施的开源生态格局。
对想深入理解大模型底层优化的工程师来说,TileKernels 是一份罕见的"内部实战代码"——比任何论文都直接,比任何教程都真实。
💬
你在 AI 系统开发中遇到过 GPU 算子性能瓶颈吗?
欢迎在评论区分享你的优化经验,或者聊聊对 DeepSeek 持续开源策略的看法。
觉得有收获,点个在看 👁️ 支持一下~
每日开源 · 发现值得深读的开源项目