获得徽章 0
赞了这篇沸点
DeepSeek 开源周第一天:FlashMLA 项目。

专门针对 Hopper GPU 优化了 MLA 解码内核,特别适合处理变长序列的场景,让 GPU 性能得到显著提升,提高推理效率。

主要优势:
- 在内存受限配置下可达到 3000 GB/s 的吞吐量
- 在计算受限配置下在 H800 SXM5 上可实现 580 TFLOPS
- 支持 BF16 数据格式
- 集成 64 块大小的分页 kvcache

地址:GitHub:github.com/deepseek-ai/FlashMLA
展开
2
Javaer @家里蹲
赞了这篇沸点
不要再说没人爱你了:你又年轻,工资又低,又有干劲,哪个老板不喜欢你。[黑脸]
14
Javaer @家里蹲
Javaer @家里蹲
关注了
Javaer @家里蹲
Javaer @家里蹲
Javaer @家里蹲
Javaer @家里蹲
Javaer @家里蹲