1024GAry

赞

7

|

搜索文章

CUDA程序基本优化

Parallel Reduction 并行规约 Warp 分割 Memory Coalescing 访存合并 Bank 冲突 SM 资源动态分割数据预读指令混合循环展开有效的数据并行算法 +

2年前
356
点赞
评论

CUDA编程3 共享内存的应用

矩阵乘法中通过将矩阵切分为多个子矩阵并加载的共享内存来加速矩阵乘法的计算。其中子矩阵的大小为tile_width,如何选择tile_width的大小呢？ 1、如果tile_width设置的太大会怎样

2年前
97
点赞
评论

WSL2+VSCODE+CUDA C+++CMake开发工具链配置教程

1、WSL2 通过微软商店安装或通过微软官网的命令行教程安装。注：（装不上或卸载过装不上了有可能是windows的更新没开，在设置里将windows更新和接收windows其他更新开启） 2、VSC

2年前
945
点赞
评论

VSCODE配置C++/CUDA开发环境（使用CMAKE控制项目编译）

基于WSL的VSCODE对C++ CUDA的开发环境要求： 1 run 2 debug 3 code completion 4 代码跳转方案一：如果没有补全，要在C/C++的Extension的

2年前
983
点赞
1

内置类型和函数线程同步线程调度存储模型重访原子函数 Global和device函数 1、尽量少用递归 2、不要用静态变量 3、少用malloc 4、小心通过指针实现的函数调用向量数据类型

2年前
748
点赞
评论

CUDA GPU编程模型

CPU和GPU互动模式 GPU线程组织模型（不停强化） GPU存储模型基本的编程问题 CPU和GPU互动模式 GPU存储器层次架构硬件基于OpenCL的图分层次主要是为了容量-速度的trad

2年前
160
点赞
评论

粗略的学习笔记Pipelining ->利用指令级并行 instruction-level parallelism ILP + 极大的减小时钟周期【能加速】 - 增加一些延迟和芯片面积 - 问题：

2年前
132
点赞
评论

WSL2安装配置NVIDIA Toolkit Driver、CUDA Toolkit、cuDNN和TensorRT

Windows Subsystem LINUX 2 (WSL2) 安装NVIDIA CUDA Toolkit、cuDNN和TensoRT的简单教程。

2年前
826
点赞
评论

个人成就

文章被阅读 6,674

加入于

2023-06-19