首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
LogicOverlord
掘友等级
AI infra开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
LogicOverlord
AI infra开发工程师
·
3月前
关注
行优先的多维数组中线性索引和逻辑索引的关系
命题:如果有一个n维行优先的数组的shape为 $shape_o\times shape_1 \times ... \times shape_{n-1}$ ,对于线性索引为...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
3月前
关注
cuda初学者一次失败的cuda tma优化经历
本次博客的github链接: https://github.com/haowen-han/tma_study 从安培开始,nv引入了异步拷贝的概念,在hopper架构中则体...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
7月前
关注
记一次transpose+add算子的优化
要加速的pytorch原代码: 加速的特定shape: 第一版cuda代码: 测试脚本: 测试GPU:A800 测试结果: 速度比torch.compile慢,但是如果仅保...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
7月前
关注
不同warp中的线程同时访问一个bank中不同地址会有冲突吗
there is no opportunity for coalescing across different warps....
0
评论
分享
LogicOverlord
AI infra开发工程师
·
8月前
关注
行优先的多维数组中线性索引和逻辑索引的关系
行优先的多维数组中线性索引和逻辑索引的关系,通过本文介绍的公式可以从线性索引求得逻辑索引,这在写cuda的时候特别有用...
0
评论
分享
LogicOverlord
赞了这篇文章
吃果冻不吐果冻皮
🏆掘金签约作者|人工智能方向
·
1年前
关注
大模型推理优化技术-KV Cache
近两年大模型火出天际;同时,也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。...
15
3
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
torch_musa源码阅读记录
注:个人阅读记录,因此写的很随意 torch_musa是摩尔线程推出的pytorch插件,主要思想是通过pytorch的privateuse1键让pytorch可以在摩尔线...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
torch_musa中ADVANCED_REGISTER解读
如https://juejin.cn/post/7314142205684318246 所述,pytorch通过TORCH_LIBRARY_IMPL宏进行算子注册,如下面代...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
pytorch setup.py阅读记录
注:本文为个人阅读记录之用,因此写起来比较随心所欲,而且由于是阅读的时候的随手记录,因此错误应该也不少。。。。。 近期打算花时间好好学习一下pytorch的源码,而要学习p...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
zero-offload论文阅读记录
注:新手文章。 1.摘要 大模型训练需要大量GPU,zero-offload可以增加10倍的模型参数量且不牺牲性能及无需修改模型。zero-offload通过把数据...
1
1
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
Paadle Custom device 代码阅读记录
Paddle Custom device的仓库位于:https://github.com/PaddlePaddle/PaddleCustomDevice 其示例代码为在ba...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
PaddlePaddle算子注册原理阅读记录
PaddlePaddle通过REGISTER_OPERATOR宏来进行算子注册,以paddle/fluid/operators/gru_unit_op.cc为例,其注册代码...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
paddle构建过程阅读记录
基于paddle 2023.4左右的版本 使用python setup.py可以直接安装PaddlePaddle,首先其内部会先调用最外层的CMakeLists.txt(s...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
pytorch中的输出流
1.C++侧 cout<<Tensor; C++侧中tensor的输出流重载代码位于 /home/pytorch/aten/src/ATen/core/Formatting...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
mmcv算子注册和算子分发原理
mmcv模仿pytorch,通过dispatcher根据算子的信息将算子分发到不同的函数,从而实现代码的复用,下面以upfirdn2d为例,介绍mmcv的算子注册及算子分发...
1
2
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
cuda编程中的shuffle使用
在shuffle指令主要用于让一个warp中的线程能直接访问另一个warp中线程的寄存器,从而实现数据的交换,而无需通过共享内存或者全局内存,如《Professional ...
0
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
cuda编程中的共享内存(shared memory)
共享内存位于GPU的SM中,由一个线程块(thread block)中的线程共同使用。共享内存的延迟比全局内存(global memory)低20到30倍,带宽高约10倍。...
2
评论
分享
LogicOverlord
AI infra开发工程师
·
1年前
关注
CUDA固定内存、零拷贝内存和统一内存
一、固定内存(pinned memory) 默认在host端分配的内存都是pageable的(Pageable memory space means memory cont...
1
评论
分享
下一页
个人成就
文章被点赞
5
文章被阅读
13,770
掘力值
428
关注了
0
关注者
6
收藏集
0
关注标签
0
加入于
2023-07-06