首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型加速
不会弹吉他的布鲁克
创建于2024-08-28
订阅专栏
大模型加速技术总结
暂无订阅
共3篇文章
创建于2024-08-28
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型加速-核心网络算子-Flash Attention V3
FlashAttention-3 基于 H100 利用硬件新特性的优化方案,在 H100 GPU 上通过 FP16 实现 1.5-2.0 倍的加速,达到 740 TFLOPs/s(利用率 75%),
大模型加速-核心网络算子-Flash Attention V2
Flash Attention V2过外循环修改为 Q,可以很好的,避免 warp 之间的通信,利用高速缓存,进一步降低 HBM 的访问次数,同时有效的调整归一化补偿算法,节省 1D 算力,提升整体性
大模型加速-核心网络算子-Flash Attention V1
FlashAttention V1目的不是节约FLOPs,而是减少对HBM的访问。重点是FlashAttention在训练和预测过程中的结果和标准Attention一样,对用户是无感的,而其他加速方法