大模型加速

大模型加速

大模型加速

大模型加速技术总结

暂无订阅共3篇文章创建于2024-08-28

大模型加速-核心网络算子-Flash Attention V3

FlashAttention-3 基于 H100 利用硬件新特性的优化方案，在 H100 GPU 上通过 FP16 实现 1.5-2.0 倍的加速，达到 740 TFLOPs/s（利用率 75%），

1年前
1.2k
点赞
评论

大模型加速-核心网络算子-Flash Attention V2

Flash Attention V2过外循环修改为 Q,可以很好的,避免 warp 之间的通信,利用高速缓存,进一步降低 HBM 的访问次数,同时有效的调整归一化补偿算法,节省 1D 算力,提升整体性

1年前
614
点赞
评论

大模型加速-核心网络算子-Flash Attention V1

FlashAttention V1目的不是节约FLOPs，而是减少对HBM的访问。重点是FlashAttention在训练和预测过程中的结果和标准Attention一样，对用户是无感的，而其他加速方法

1年前
435
点赞
评论