首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LogicOverlord
掘友等级
AI infra开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
行优先的多维数组中线性索引和逻辑索引的关系
命题:如果有一个n维行优先的数组的shape为 $shape_o\times shape_1 \times ... \times shape_{n-1}$ ,对于线性索引为 L ,如果其满足 $L =
cuda初学者一次失败的cuda tma优化经历
本次博客的github链接: https://github.com/haowen-han/tma_study 从安培开始,nv引入了异步拷贝的概念,在hopper架构中则体现为tma(tensor m
记一次transpose+add算子的优化
要加速的pytorch原代码: 加速的特定shape: 第一版cuda代码: 测试脚本: 测试GPU:A800 测试结果: 速度比torch.compile慢,但是如果仅保留kernel中transp
不同warp中的线程同时访问一个bank中不同地址会有冲突吗
there is no opportunity for coalescing across different warps.
行优先的多维数组中线性索引和逻辑索引的关系
行优先的多维数组中线性索引和逻辑索引的关系,通过本文介绍的公式可以从线性索引求得逻辑索引,这在写cuda的时候特别有用
torch_musa源码阅读记录
注:个人阅读记录,因此写的很随意 torch_musa是摩尔线程推出的pytorch插件,主要思想是通过pytorch的privateuse1键让pytorch可以在摩尔线程的显卡上运行,从而兼容py
torch_musa中ADVANCED_REGISTER解读
如https://juejin.cn/post/7314142205684318246 所述,pytorch通过TORCH_LIBRARY_IMPL宏进行算子注册,如下面代码所示: 而在torch_m
pytorch setup.py阅读记录
注:本文为个人阅读记录之用,因此写起来比较随心所欲,而且由于是阅读的时候的随手记录,因此错误应该也不少。。。。。 近期打算花时间好好学习一下pytorch的源码,而要学习pytorch的源码,自然就要
zero-offload论文阅读记录
注:新手文章。 1.摘要 大模型训练需要大量GPU,zero-offload可以增加10倍的模型参数量且不牺牲性能及无需修改模型。zero-offload通过把数据和计算下发到cpu来实现大模
Paadle Custom device 代码阅读记录
Paddle Custom device的仓库位于:https://github.com/PaddlePaddle/PaddleCustomDevice 其示例代码为在backends/custom_
下一页
个人成就
文章被点赞
5
文章被阅读
13,785
掘力值
428
关注了
0
关注者
6
收藏集
0
关注标签
0
加入于
2023-07-06