TileKernels:DeepSeek 用 Python写出逼近硬件极限的 GPU 算子库 |Github Daily

0 阅读5分钟

每日开源 · 2026.04.26

当大多数人还在讨论大模型的 API 调用时,DeepSeek 悄悄把支撑它飞速运转的"发动机零件"全部开源了。
TileKernels——一套完全用 Python 编写、却能榨干 H100/B200 性能极限的高性能 GPU 算子库,本周正式登上 GitHub Trending。

📋****项目速览

项目名****TileKernels

作者DeepSeek AI(深度求索)

开源时间2026 年 4 月 22 日

Stars⭐ 1,200+(GitHub Trending 热榜)

协议MIT License(完全开源可商用)

语言Python 100%(基于 TileLang DSL)

仓库github.com/deepseek-ai/TileKernels

MoE 

Routing****FP4

 量化

Engram 

记忆门控

TileLang 

DSLH100 / B200DeepSeek V4 预告

🔍****它能解决什么问题?

痛点一:CUDA C++ 又难写又慢迭代
传统写高性能 GPU 算子必须用 CUDA C++,门槛极高,调试周期长,工程师花大量时间在底层细节而非算法创新。

痛点二:通用框架无法对 LLM 特殊操作极致优化
MoE 路由、Engram 门控、流形超连接等 LLM 特有操作,cuBLAS/cuDNN 等通用库往往留有大量性能空间。

痛点三:研究与工程落地之间的巨大鸿沟
论文里漂亮的算法,要优化到 GPU 硬件级别往往需要数月工程时间,严重拖慢迭代速度。

图片

TileKernels 的答案是:用 Python 描述算法逻辑,用 TileLang DSL 自动生成逼近硬件上限的机器码。 既保留了 Python 的可读性,又实现了手写 CUDA C++ 才能达到的性能——鱼与熊掌,DeepSeek 全都要。

✨****核心亮点(详细展开)

  • 1

    Python 写内核,性能逼近硬件极限
    基于 TileLang(面向高性能 GPU 计算的领域专用语言),用纯 Python 语法表达底层算子。大多数内核在计算强度和内存带宽两个维度均已接近 H100/B200 的物理上限,彻底打破"Python 就是慢"的刻板印象。

  • 2

    涵盖 LLM 全链路核心操作
    MoE 路由(Top-k 专家选择 + Token 映射 + 融合扩展归约)、FP8/FP4/E5M6 量化(Per-token / Per-block / Per-channel)、批量转置、SwiGLU 融合量化……每一个都是大模型训练与推理的关键路径。

  • 3

    Engram + mHC:DeepSeek V4 架构剧透
    代码中出现两个神秘模块——**Engram(记忆门控)**暗示 V4 将引入类脑记忆调度架构;**mHC(流形超连接)**揭示层间连接将采用全新的流形拓扑逻辑。这是 DeepSeek V4 架构的首次"代码级预告",意义不凡。

  • 4

    生产环境实战验证
    项目明确指出这些内核已用于 DeepSeek 内部的训练和推理场景,不是实验性代码,而是经过实战检验的生产级算子库,稳定性有真实保障。

  • 5

    与 PyTorch 深度集成
    提供高级 torch.autograd.Function 封装,无缝接入现有 PyTorch 训练流程,支持完整的前向/反向传播及权重梯度归约,开箱即用。

🎯****实战场景展示

🏭

大模型训练加速

MoE 训练中 MoE Routing + Engram Gating 组合使用,减少显存碎片,大幅提升训练吞吐量

推理极限压榨

FP4 量化 + 融合 SwiGLU 内核,在 B200 上实现比标准路径高出数倍的 tokens/s 速度

🔬

新架构快速验证

基于 mHC 流形超连接算子,加速研究新型层间连接方式对模型质量影响的对比实验

🛠️

自定义算子开发

参考 TileLang DSL 实现范式,用 Python 快速开发自己的高性能 GPU 算子,无需 CUDA C++

🚀****上手指南

环境要求:Python 3.10+,PyTorch 2.10+,TileLang 0.1.9+,NVIDIA SM90/SM100 架构 GPU(H100 / B200)

安装方式

# 正式版安装
pip
 install tile-kernels
# 开发版(推荐研究者使用)
git
 clone https://github.com/deepseek-ai/TileKernels
cd
 TileKernels
pip
 install -e 
".[dev]"

调用 MoE Routing 内核示例

import
 torch
from
 tile_kernels.moe 
import
 moe_routing, topk_gating
# hidden_states shape: [batch, seq_len, hidden_dim]
hidden_states = torch.randn(2, 512, 4096, device=
"cuda"
, dtype=torch.float16) gate_logits   = torch.randn(2, 512, 64,   device=
"cuda"
)
# Top-2 专家选择,已接近 H100 硬件带宽上限
expert_idx, expert_w = topk_gating(gate_logits, k=2) out = moe_routing(hidden_states, expert_idx, expert_w)
print
(out.shape)  
# torch.Size([2, 512, 4096])

使用 Engram 门控层(直接插入 PyTorch 模型)

from
 tile_kernels.modeling 
import
 EngramGatingLayer
# 作为 nn.Module 直接插入模型,支持 autograd
layer = EngramGatingLayer(hidden_dim=4096,
memory_slots=256).cuda()  
x   = torch.randn(2, 512, 4096, device=
"cuda"
,
dtype=torch.bfloat16) out = layer(x) 
# 可直接 .backward()

💡****今日总结

🎯 一句话总结

TileKernels 是 DeepSeek 的"底层发动机图纸"全面开源:用 Python 写出逼近硬件极限的 GPU 算子, 同时剧透了 V4 的 Engram 记忆门控与 mHC 流形超连接架构。 对 AI 系统工程师来说,这是比大模型本身更值得深读的技术资产。

从 DeepEP(专家并行通信库)到 TileKernels(GPU 算子库),DeepSeek 正在将整个 LLM 基础设施栈逐步开源。这种"全栈自研 + 全量开放"的策略,不仅是技术实力的展示,也在重塑 AI 基础设施的开源生态格局。

对想深入理解大模型底层优化的工程师来说,TileKernels 是一份罕见的"内部实战代码"——比任何论文都直接,比任何教程都真实。

💬

你在 AI 系统开发中遇到过 GPU 算子性能瓶颈吗?
欢迎在评论区分享你的优化经验,或者聊聊对 DeepSeek 持续开源策略的看法。

觉得有收获,点个在看 👁️ 支持一下~

每日开源 · 发现值得深读的开源项目