TileKernels：DeepSeek 用 Python写出逼近硬件极限的 GPU 算子库｜Github Daily

每日开源 · 2026.04.26

当大多数人还在讨论大模型的 API 调用时，DeepSeek 悄悄把支撑它飞速运转的"发动机零件"全部开源了。
TileKernels——一套完全用 Python 编写、却能榨干 H100/B200 性能极限的高性能 GPU 算子库，本周正式登上 GitHub Trending。

📋****项目速览

项目名****TileKernels

作者DeepSeek AI（深度求索）

开源时间2026 年 4 月 22 日

Stars⭐ 1,200+（GitHub Trending 热榜）

协议MIT License（完全开源可商用）

语言Python 100%（基于 TileLang DSL）

仓库github.com/deepseek-ai/TileKernels

MoE

Routing****FP4

量化

Engram

记忆门控

TileLang

DSLH100 / B200DeepSeek V4 预告

🔍****它能解决什么问题？

痛点一：CUDA C++ 又难写又慢迭代
传统写高性能 GPU 算子必须用 CUDA C++，门槛极高，调试周期长，工程师花大量时间在底层细节而非算法创新。

痛点二：通用框架无法对 LLM 特殊操作极致优化
MoE 路由、Engram 门控、流形超连接等 LLM 特有操作，cuBLAS/cuDNN 等通用库往往留有大量性能空间。

痛点三：研究与工程落地之间的巨大鸿沟
论文里漂亮的算法，要优化到 GPU 硬件级别往往需要数月工程时间，严重拖慢迭代速度。

TileKernels 的答案是：用 Python 描述算法逻辑，用 TileLang DSL 自动生成逼近硬件上限的机器码。 既保留了 Python 的可读性，又实现了手写 CUDA C++ 才能达到的性能——鱼与熊掌，DeepSeek 全都要。

✨****核心亮点（详细展开）

1

Python 写内核，性能逼近硬件极限
基于 TileLang（面向高性能 GPU 计算的领域专用语言），用纯 Python 语法表达底层算子。大多数内核在计算强度和内存带宽两个维度均已接近 H100/B200 的物理上限，彻底打破"Python 就是慢"的刻板印象。
2

涵盖 LLM 全链路核心操作
MoE 路由（Top-k 专家选择 + Token 映射 + 融合扩展归约）、FP8/FP4/E5M6 量化（Per-token / Per-block / Per-channel）、批量转置、SwiGLU 融合量化……每一个都是大模型训练与推理的关键路径。
3

Engram + mHC：DeepSeek V4 架构剧透
代码中出现两个神秘模块——**Engram（记忆门控）**暗示 V4 将引入类脑记忆调度架构；**mHC（流形超连接）**揭示层间连接将采用全新的流形拓扑逻辑。这是 DeepSeek V4 架构的首次"代码级预告"，意义不凡。
4

生产环境实战验证
项目明确指出这些内核已用于 DeepSeek 内部的训练和推理场景，不是实验性代码，而是经过实战检验的生产级算子库，稳定性有真实保障。
5

与 PyTorch 深度集成
提供高级 torch.autograd.Function 封装，无缝接入现有 PyTorch 训练流程，支持完整的前向/反向传播及权重梯度归约，开箱即用。

🎯****实战场景展示

🏭

大模型训练加速

MoE 训练中 MoE Routing + Engram Gating 组合使用，减少显存碎片，大幅提升训练吞吐量

⚡

推理极限压榨

FP4 量化 + 融合 SwiGLU 内核，在 B200 上实现比标准路径高出数倍的 tokens/s 速度

🔬

新架构快速验证

基于 mHC 流形超连接算子，加速研究新型层间连接方式对模型质量影响的对比实验

🛠️

自定义算子开发

参考 TileLang DSL 实现范式，用 Python 快速开发自己的高性能 GPU 算子，无需 CUDA C++

🚀****上手指南

环境要求：Python 3.10+，PyTorch 2.10+，TileLang 0.1.9+，NVIDIA SM90/SM100 架构 GPU（H100 / B200）

安装方式

# 正式版安装

pip
 install tile-kernels

# 开发版（推荐研究者使用）

git
 clone https://github.com/deepseek-ai/TileKernels

cd
 TileKernels

pip
 install -e 
".[dev]"

调用 MoE Routing 内核示例

import
 torch

from
 tile_kernels.moe

import
 moe_routing, topk_gating

# hidden_states shape: [batch, seq_len, hidden_dim]

hidden_states = torch.randn(2, 512, 4096, device=
"cuda"
, dtype=torch.float16) gate_logits   = torch.randn(2, 512, 64,   device=
"cuda"
)

# Top-2 专家选择，已接近 H100 硬件带宽上限

expert_idx, expert_w = topk_gating(gate_logits, k=2) out = moe_routing(hidden_states, expert_idx, expert_w)
print
(out.shape)

# torch.Size([2, 512, 4096])

使用 Engram 门控层（直接插入 PyTorch 模型）

from
 tile_kernels.modeling

import
 EngramGatingLayer

# 作为 nn.Module 直接插入模型，支持 autograd

layer = EngramGatingLayer(hidden_dim=4096,

memory_slots=256).cuda()

x   = torch.randn(2, 512, 4096, device=
"cuda"
,

dtype=torch.bfloat16) out = layer(x)

# 可直接 .backward()

💡****今日总结

🎯 一句话总结

TileKernels 是 DeepSeek 的"底层发动机图纸"全面开源：用 Python 写出逼近硬件极限的 GPU 算子，同时剧透了 V4 的 Engram 记忆门控与 mHC 流形超连接架构。对 AI 系统工程师来说，这是比大模型本身更值得深读的技术资产。

从 DeepEP（专家并行通信库）到 TileKernels（GPU 算子库），DeepSeek 正在将整个 LLM 基础设施栈逐步开源。这种"全栈自研 + 全量开放"的策略，不仅是技术实力的展示，也在重塑 AI 基础设施的开源生态格局。

对想深入理解大模型底层优化的工程师来说，TileKernels 是一份罕见的"内部实战代码"——比任何论文都直接，比任何教程都真实。

💬

你在 AI 系统开发中遇到过 GPU 算子性能瓶颈吗？
欢迎在评论区分享你的优化经验，或者聊聊对 DeepSeek 持续开源策略的看法。

觉得有收获，点个在看 👁️ 支持一下～

每日开源 · 发现值得深读的开源项目

TileKernels：DeepSeek 用 Python写出逼近硬件极限的 GPU 算子库 ｜Github Daily

🎯 一句话总结

TileKernels：DeepSeek 用 Python写出逼近硬件极限的 GPU 算子库｜Github Daily