
获得徽章 0
赞了这篇沸点
DeepSeek 开源周第一天:FlashMLA 项目。
专门针对 Hopper GPU 优化了 MLA 解码内核,特别适合处理变长序列的场景,让 GPU 性能得到显著提升,提高推理效率。
主要优势:
- 在内存受限配置下可达到 3000 GB/s 的吞吐量
- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS
- 支持 BF16 数据格式
- 集成 64 块大小的分页 kvcache
地址:GitHub:github.com/deepseek-ai/FlashMLA
专门针对 Hopper GPU 优化了 MLA 解码内核,特别适合处理变长序列的场景,让 GPU 性能得到显著提升,提高推理效率。
主要优势:
- 在内存受限配置下可达到 3000 GB/s 的吞吐量
- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS
- 支持 BF16 数据格式
- 集成 64 块大小的分页 kvcache
地址:GitHub:github.com/deepseek-ai/FlashMLA
展开
2
5