【爆炸级开源】伯克利RISE实验室祭出“显微镜”级神器:TritonParse让GPU内核编译从此“看得见”!

90 阅读2分钟

aI68E-25.jpg

开场仅60秒,先扔三颗“炸弹”第一颗:
  • TritonParse开源24小时,GitHub星标破4k,把Triton主仓库直接顶上Trending第一。

  • 第二颗:某国产大模型团队实测,用它调优矩阵乘核心,推理延迟一次性砍掉37%。

  • 第三颗:VSCode插件市场“TritonParse Lens”下载量半天登顶,JetBrains官方连夜在推特喊话“求合作”。

这不是营销,这是伯克利RISE实验室在今天凌晨刚刚掀桌的开源现场。

为什么整个圈子瞬间“瞳孔地震”?

故事要从GPU编程的“黑箱”说起。过去不管你用CUDA、OpenCL还是Triton,写内核都像在黑屋子里修手表——写完Python,中间经历TTIR→TTGIR→LLVM IR→PTX/AMDGCN,任何一步崩了都得靠printf玄学调试。

现在有人把灯打开了。TritonParse= 全栈IR显微镜 + 交互式手术台 + 时间轴CT机。

屏幕截图 2025-07-13 171131.png

| 能力 | 以前 | 现在 | | 看TTIR长什么样 | 手搓--print-ir | 一键展开树形图 | | 定位性能瓶颈 | 读PTX猜热点 | 时间轴132个节点逐帧回放 | | 源码↔IR映射 | 肉眼对齐行号 | 点击指令直接高亮Python语句 |

3分钟看懂“显微镜”怎么玩

🔍 Step1:一键透视在VSCode里⇧⌘P输入TritonParse: Open,自动把当前.py文件拖进浏览器窗口,左侧源码,右侧IR树,实时双向跳转。

⏱️ Step2:时间轴回放顶部Timeline拉条拖动,就像Chrome DevTools Performance面板:每一层Pass(inliner、loop-unroll、vectorizer……)的耗时、IR diff、寄存器压力曲线全部可视化。

🧪 Step3:实验级Diff改一行Python,右侧立即渲染“新-旧”PTX指令差异,红色删除、绿色新增,性能回归一眼看穿。

开源即正义,现在就能玩:

Github仓库:github.com/pytorch-lab…

TritonParse Lens,直接内嵌。

RISE实验室的下一手牌据可靠消息,TritonParse仅是“GPU Transparency”计划的第一弹。内部Roadmap流出:8月:支持AMD CDNA3架构9月:接入MLIR Python Bindings,打通PyTorch 2.510月:“PTX反编译回Python” Alpha版(对,你没看错)

从CUDA到Triton,GPU编程用了15年才把门槛降到Python级。而TritonParse的出现,把“看得见”变成了“看得懂”。

当编译器不再是黑箱,当性能瓶颈能被逐帧回放,下一个37%的提速,或许就来自此刻正在读文章的你。