首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
高性能计算 —— Nvidia GPU
邢越峰
创建于2022-01-30
订阅专栏
专注于高性能计算知识。 Nvidia GPU 专栏。 持续学习更新中。。。
等 3 人订阅
共10篇文章
创建于2022-01-30
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
4.1.2 【NVIDIA-GPU-CUDA】高速缓存的调优 —— L2Cache
高速缓存的调优 —— L2Cache 支持调优的软硬件版本 L2缓存在哪里 使用L2缓存的方式 L2缓存的类型 L2持久缓的使用策略 为什么需要使用策略 设置策略的方法 为什么设置策略可以减少缓存行波
4.1.1 【NVIDIA-GPU-CUDA】片上的并发访问存储 —— Shared Memory
片上的并发访问存储 —— Shared Memory 共享内存在哪里 共享内存有什么特点 应用于线程间并发访存 并发访问的特性 内存块(Bank)的大小 访存的线程间同步 静态 / 动态 共享内存申请
4.1.0 【NVIDIA-GPU-CUDA】设备内存优化 —— 片外内存 & 片上内存
设备内存优化 —— 片外内存 & 片上内存 片外内存的优化 片上内存的优化 设备内存优化 —— 片外内存 & 片上内存 CUDA 设备使用多个内存空间,这些内存空间具有不同的特征,反映了它们在 CUD
4.0.1 【NVIDIA-GPU-CUDA】Unified Memroy 统一内存
Unified Memroy 统一内存 什么是统一内存(UM) 区分 统一内存(UM) 和 统一虚拟寻址(UVA) 如何高效使用统一内存 实验数据对比导读 实验结果得出结论 一些编程建议 Unifie
4.0.0 【NVIDIA-GPU-CUDA】数据传输优化 —— Device ↔ Host
数据传输优化 —— Device ↔ Host 为什么要优化Device ↔ Host的内存传递 优化内存传递的几种方式 使用Host上的Pinned Memor存储并使用DeviceCopy 计算与
4. 【NVIDIA-GPU-CUDA】主要优化手段 —— 内存优化
内存优化是最重要的性能领域。目标是通过最大化带宽来最大化硬件的使用。最好使用尽可能多的快速内存和尽可能少的慢速访问内存来提供带宽。 在CUDA编程中,内存分为两大部分 Host内存 Device内存
2. 【NVIDIA-GPU-CUDA】MPS 多进程服务
MPS 多进程服务 什么是MPS Volta中的MPS(重点) Volta MPS 和 MPS 在 Volta GPU 之前的版本中的差异 为什么需要MPS MPS有什么优势 什么程序应使用MPS M
3. 【NVIDIA-GPU-CUDA】Stream的并发
Stream的并发 默认流 cuda7之前的默认流行为 cuda7的默认流行为 如何开启每线程默认流 默认流的开发提示 流的异步 同步流的方式 暴力流同步 其他流同步 异步流拷贝内存 Stream的并
1. 【NVIDIA-GPU-CUDA】CUDA基础编程模型
CUDA基础编程模型 物理单元 软件单元 调度器(Warp) CUDA基础编程模型 物理单元 GPC 图形处理集群,其中拥有多个TPC TPC 纹理处理集群,其中拥有多个SM SM(streaming
0. 【NVIDIA GPU】 —— 概述
The Graphics Processing Unit (GPU)1 provides much higher instruction throughput and memory bandwidth