首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
cuda编程
订阅
早睡早起冲啊
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
OpenMP中文教程
OpenMP 是一个应用程序接口(API),由一组主要的计算机硬件和软件供应商联合定义。OpenMP 为共享内存并行应用程序的开发人员提供了一个可移植的、可伸缩的模型。该API在多种体系结构上支持 C/C++ 和 Fortran。本教程涵盖了 OpenMP 3.1 的大部分主要…
动手实现卷积神经网络
作为深度学习领域的初学者,很多人会好奇TensorFlow和PyTorch等深度学习框架的工作原理是什么。毫无例外,这些系统都使用了CUDA进行并行计算加速,在此我用CUDA实现了一个简单的CNN网络,方便大家学习和理解,并在无扭曲的MNIST数据集上实现了99.23%的准确率…
中文领域最详细的Python版CUDA入门教程
本系列为英伟达GPU入门介绍的第二篇,主要介绍CUDA编程的基本流程和核心概念,并使用Python Numba编写GPU并行程序。为了更好地理解GPU的硬件架构,建议读者先阅读我的第一篇文章。 GPU硬件知识和基础概念:包括CPU与GPU的区别、GPU架构、CUDA软件栈简介。…
高效、易用、可拓展一键打包:CUDA Elementwise模板库的设计优化
OneFlow 针对这种 Elementwise 操作抽象出一套 CUDA 模板,开发者只需把计算逻辑封装到一个结构体内,即可获得一个 CUDA Elementwise 算子。
Python Numba | 多流和共享内存CUDA优化技术介绍和代码示例
AI时代人人都应该了解的GPU知识:主要介绍了CPU与GPU的区别、GPU架构、CUDA软件栈简介。 超详细Python Cuda零基础入门教程:主要介绍了CUDA核函数,Thread、Block和Grid概念,内存分配,并使用Python Numba进行简单的并行计算。 阅读…
如何实现一个高效的Softmax CUDA kernel?
本文将会介绍OneFlow中优化的Softmax CUDA Kernel的技巧,并跟cuDNN中的Softmax操作进行实验对比,结果表明,OneFlow深度优化后的Softmax对显存带宽的利用率可
漫谈CUDA优化
几个月前,我根据 Simoncelli 2016 年的论文编写了自己的自动编码器,用于研究目的。一开始,我想使用一些流行的深度学习框架(例如 Tens
CUDA 矩阵乘法终极优化指南
单精度矩阵乘法几乎是每一位学习 CUDA 的同学绕不开的案例,这个经典的计算密集型案例可以很好地展示 GPU 编程中常用的优化技巧。本文将详细介绍 CUDA SGEMM 的优化手段。
Cuda编程系列-Cuda编程基本概念&编程模型
在介绍编码相关内容之前,一个更重要的话题是什么类型的问题适合用GPU进行解决。 GPU于CPU相比,有着惊人的核数、运算单元及内存带宽。对于给定问题,如果有办法把它分解为多个独立的子问题并行解决,那么GPU很有可能提供比CPU更好的性能。所谓“独立”,指的是所分解的子问题满足:…
CUDA编程从放弃到入门
最近看fastertransformer源码,接触了很多底层到东西,cuda源码各种看不懂,就去学cuda,学了一会儿觉得就想放弃,结果翻回去看源码还是不懂,反复几次,最后干脆拿出一上午静静地把官方文档啃了啃才算入门。所以写这篇文章帮助同样想要放弃的同学入门一下。 网上关于cu…