首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Aalan157
掘友等级
Graphic engineer
|
Intel
GPU/ AI framework
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
stream 流式负载优化 (CUDA 版本)
Performance benchmark 中包含一类 stream workload 常被用来测量 GPU 与 HOST 传输数据的带宽性能。本文主要通过学习 《CUDA Handbook》总结整理
numactl 内存绑定(membind) 失效
前一篇帖子总结了,numactl 的相关内容,《并行AI worklaod numactl 优化》 这篇帖子主要分析在实际优化 AI workload 的过程中遇到的具体问题。
并行AI worklaod numactl 优化
在多张显卡进行 training 或者 inference 的时候,我发现 “绑核” 之后,往往能够得到更好的性能数据(throughput),而且 “绑核” 方法的好坏,也需要仔细考虑。
编译RHEL 8.7 kernel 并重新安装 (RPM build)
当获取了 RHEL 8.7 kernel source 之后,现在就可以着手build Linux Kernel 并打包成RPM 包了。 什么? 还没有搞到RHEL的kernel source,那得看
如何下载RHEL/CentOS Kernel source
背景:近期遇到一个项目,需要重编Linux Kernel,并安装。Linux OS 是RHEL 8.7。 由于这是企业版系统, Kernel source 很难弄到。最后发现可以用CentOS 替代。
编译RHEL 8.7 kernel 并重新安装 (make)
编译并安装RHEL 8.7 kernel 背景:最近遇到一个bug,需要修改 RHEL 8.7 kernel config 的配置参数,然后重新安装该kernel。踩过一些坑,复盘整理。
如何画出TensorRT的engine模型结构图
TensorRT 会对输入的 ONNX 原始模型文件构建生成 TRT engine,然后再进行推理,本文涉及如何dump TRT engine
个人成就
文章被阅读
5,556
掘力值
104
关注了
1
关注者
0
收藏集
0
关注标签
8
加入于
2021-11-26