首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
训练推理加速
订阅
oneiiii
更多收藏集
微信扫码分享
微信
新浪微博
QQ
6篇文章 · 0订阅
神经网络推理加速入门——计算和存储的分离
大家好啊,我是董董灿。 今天开始,增加第一个专栏,作为AI推理加速的专栏,主要写一写在神经网络推理过程中的一些加速方法。 先从计算机底层原理说起。先说几个基础概念。 计算机存储和计算的分离 第一是计算
KubeAI大模型推理加速实践|得物技术
最近我们在生产环境批量部署了大模型专用推理集群,并成功让包括70B在内的大模型推理速度提升50%,大幅缩减部署成本,稳定应用于生产环境。
大模型加速-核心网络算子-Flash Attention V1
FlashAttention V1目的不是节约FLOPs,而是减少对HBM的访问。重点是FlashAttention在训练和预测过程中的结果和标准Attention一样,对用户是无感的,而其他加速方法
大模型加速-核心网络算子-Flash Attention V2
Flash Attention V2过外循环修改为 Q,可以很好的,避免 warp 之间的通信,利用高速缓存,进一步降低 HBM 的访问次数,同时有效的调整归一化补偿算法,节省 1D 算力,提升整体性
大模型加速-核心网络算子-Flash Attention V3
FlashAttention-3 基于 H100 利用硬件新特性的优化方案,在 H100 GPU 上通过 FP16 实现 1.5-2.0 倍的加速,达到 740 TFLOPs/s(利用率 75%),
大模型推理加速-KV Cache
用空间换时间,将Attention计算的K,V缓存起来,在后续迭代过程中,直接使用前一次迭代缓存的前序单词的K,V向量进行Attention计算,这种技术就叫KV Cache。