首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
1024GAry
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
7
文章 4
沸点 3
赞
7
返回
|
搜索文章
最新
热门
CUDA程序基本优化
Parallel Reduction 并行规约 Warp 分割 Memory Coalescing 访存合并 Bank 冲突 SM 资源动态分割 数据预读 指令混合 循环展开 有效的数据并行算法 +
CUDA编程3 共享内存的应用
矩阵乘法中通过将矩阵切分为多个子矩阵并加载的共享内存来加速矩阵乘法的计算。 其中子矩阵的大小为tile_width,如何选择tile_width的大小呢? 1、如果tile_width设置的太大会怎样
WSL2+VSCODE+CUDA C+++CMake开发工具链配置教程
1、WSL2 通过微软商店安装或通过微软官网的命令行教程安装。 注:(装不上或卸载过装不上了有可能是windows的更新没开,在设置里将windows更新和接收windows其他更新开启) 2、VSC
VSCODE配置C++/CUDA开发环境(使用CMAKE控制项目编译)
基于WSL的VSCODE对C++ CUDA的开发环境 要求: 1 run 2 debug 3 code completion 4 代码跳转 方案一: 如果没有补全,要在C/C++的Extension的
CUDA常用API
内置类型和函数 线程同步 线程调度 存储模型 重访 原子函数 Global和device函数 1、尽量少用递归 2、不要用静态变量 3、少用malloc 4、小心通过指针实现的函数调用 向量数据类型
CUDA GPU编程模型
CPU和GPU互动模式 GPU线程组织模型(不停强化) GPU存储模型 基本的编程问题 CPU和GPU互动模式 GPU存储器层次架构 硬件 基于OpenCL的图 分层次 主要是为了容量-速度的trad
cuda lecture1
粗略的学习笔记Pipelining ->利用指令级并行 instruction-level parallelism ILP + 极大的减小时钟周期【能加速】 - 增加一些延迟和芯片面积 - 问题:
WSL2安装配置NVIDIA Toolkit Driver、CUDA Toolkit、cuDNN和TensorRT
Windows Subsystem LINUX 2 (WSL2) 安装NVIDIA CUDA Toolkit、cuDNN和TensoRT的简单教程。
个人成就
文章被阅读
4,072
掘力值
217
关注了
3
关注者
0
收藏集
0
关注标签
2
加入于
2023-06-19