高性能计算 —— Nvidia GPU

高性能计算 —— Nvidia GPU

高性能计算 —— Nvidia GPU

专注于高性能计算知识。 Nvidia GPU 专栏。持续学习更新中。。。

等 3 人订阅共10篇文章创建于2022-01-30

4.1.2 【NVIDIA-GPU-CUDA】高速缓存的调优 —— L2Cache

高速缓存的调优 —— L2Cache 支持调优的软硬件版本 L2缓存在哪里使用L2缓存的方式 L2缓存的类型 L2持久缓的使用策略为什么需要使用策略设置策略的方法为什么设置策略可以减少缓存行波

3年前
3.3k
点赞
评论

4.1.2 【NVIDIA-GPU-CUDA】高速缓存的调优 —— L2Cache

4.1.1 【NVIDIA-GPU-CUDA】片上的并发访问存储 —— Shared Memory

片上的并发访问存储 —— Shared Memory 共享内存在哪里共享内存有什么特点应用于线程间并发访存并发访问的特性内存块(Bank)的大小访存的线程间同步静态 / 动态共享内存申请

3年前
1.3k
2
评论

4.1.1 【NVIDIA-GPU-CUDA】片上的并发访问存储 —— Shared Memory

4.1.0 【NVIDIA-GPU-CUDA】设备内存优化 —— 片外内存 & 片上内存

设备内存优化 —— 片外内存 & 片上内存片外内存的优化片上内存的优化设备内存优化 —— 片外内存 & 片上内存 CUDA 设备使用多个内存空间，这些内存空间具有不同的特征，反映了它们在 CUD

3年前
593
点赞
评论

4.1.0 【NVIDIA-GPU-CUDA】设备内存优化 —— 片外内存 & 片上内存

4.0.1 【NVIDIA-GPU-CUDA】Unified Memroy 统一内存

Unified Memroy 统一内存什么是统一内存(UM) 区分统一内存(UM) 和统一虚拟寻址(UVA) 如何高效使用统一内存实验数据对比导读实验结果得出结论一些编程建议 Unifie

3年前
2.9k
点赞
评论

4.0.1 【NVIDIA-GPU-CUDA】Unified Memroy 统一内存

4.0.0 【NVIDIA-GPU-CUDA】数据传输优化 —— Device ↔ Host

数据传输优化 —— Device ↔ Host 为什么要优化Device ↔ Host的内存传递优化内存传递的几种方式使用Host上的Pinned Memor存储并使用DeviceCopy 计算与

3年前
1.4k
点赞
评论

4.0.0 【NVIDIA-GPU-CUDA】数据传输优化 —— Device ↔ Host

4. 【NVIDIA-GPU-CUDA】主要优化手段 —— 内存优化

内存优化是最重要的性能领域。目标是通过最大化带宽来最大化硬件的使用。最好使用尽可能多的快速内存和尽可能少的慢速访问内存来提供带宽。在CUDA编程中，内存分为两大部分 Host内存 Device内存

3年前
676
点赞
评论

4. 【NVIDIA-GPU-CUDA】主要优化手段 —— 内存优化

2. 【NVIDIA-GPU-CUDA】MPS 多进程服务

MPS 多进程服务什么是MPS Volta中的MPS（重点） Volta MPS 和 MPS 在 Volta GPU 之前的版本中的差异为什么需要MPS MPS有什么优势什么程序应使用MPS M

3年前
1.9k
点赞
评论

2. 【NVIDIA-GPU-CUDA】MPS 多进程服务

3. 【NVIDIA-GPU-CUDA】Stream的并发

Stream的并发默认流 cuda7之前的默认流行为 cuda7的默认流行为如何开启每线程默认流默认流的开发提示流的异步同步流的方式暴力流同步其他流同步异步流拷贝内存 Stream的并

3年前
985
点赞
评论

3. 【NVIDIA-GPU-CUDA】Stream的并发

1. 【NVIDIA-GPU-CUDA】CUDA基础编程模型

CUDA基础编程模型物理单元软件单元调度器(Warp) CUDA基础编程模型物理单元 GPC 图形处理集群，其中拥有多个TPC TPC 纹理处理集群，其中拥有多个SM SM(streaming

3年前
200
点赞
评论

1. 【NVIDIA-GPU-CUDA】CUDA基础编程模型

0. 【NVIDIA GPU】 —— 概述

The Graphics Processing Unit (GPU)1 provides much higher instruction throughput and memory bandwidth

3年前
290
点赞
评论

0. 【NVIDIA GPU】 —— 概述