AI系统

AI系统

AI系统

收录AI框架的系统知识

等 16 人订阅共160篇文章创建于2022-01-09

【AI系统】SIMD & SIMT 与 CUDA 关系

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将对不同并行的编程方式进行讲解，以英伟达 GPU 为

1年前
320
点赞
评论

【AI系统】SIMD & SIMT 与 CUDA 关系

【AI系统】SIMD & SIMT 与芯片架构

为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系，本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质，以及对 NVIDIA CUDA 底层实现 SIMD/SIMT

1年前
276
点赞
评论

【AI系统】SIMD & SIMT 与芯片架构

【AI系统】芯片的编程体系

本文主要探讨 SIMD 和 SIMT 的主要区别与联系，SIMT 与 CUDA 编程之间的关系，并且会讨论 GPU 在 SIMT 编程本质，SIMD、SIMT 与 DSA 架构，DSA 架构的主要形态

1年前
203
点赞
评论

【AI系统】昇腾数据布局转换

NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。昇腾数据排布昇腾数据排

1年前
204
点赞
评论

【AI系统】昇腾 AI 核心单元

本文将深入介绍昇腾 AI 处理器的核心单元——AI Core，以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器，其核心 AI Core 采用了特定域架构（Domain

1年前
533
点赞
评论

【AI系统】昇腾 AI 核心单元

【AI系统】昇腾 AI 处理器

本文将会介绍华为昇腾 AI 处理器的架构与卷积加速原理。昇腾 AI 处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器，它支持云边端一体化的全栈全场景解决方案，具有高能效比和强大的 3D Cub

1年前
655
点赞
评论

【AI系统】昇腾 AI 处理器

【AI系统】昇腾 AI 架构介绍

昇腾计算的基础软硬件是产业的核心，也是 AI 计算能力的来源。华为，作为昇腾计算产业生态的一员，是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。而本文介绍的 AI 系

1年前
797
点赞
评论

【AI系统】昇腾 AI 架构介绍

【AI系统】寒武纪介绍

中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日，其名字 Cambricon 是由 Cambrian（寒武纪）和 Silicon（硅）组合成。企业使命是：为客户创造价值，成为持续创新的

1年前
1.2k
点赞
评论

【AI系统】谷歌 TPU v4 与光路交换

TPU v4 和 TPU v3 中间相差了四年，在这四年之间，谷歌即使发布了许多对于业界非常重要的研究成果，但是在 TPU 的正代芯片上却没有什么更新。实际上，在 2018 年的 TPU v3 之后，

1年前
609
1
评论

【AI系统】谷歌 TPU v4 与光路交换

【AI系统】谷歌 TPU v3 POD 形态

TPU v3 vs. TPU v2 TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽，两倍 MXU 数量，峰值性

1年前
319
点赞
评论

【AI系统】谷歌 TPU v3 POD 形态

【AI系统】谷歌 TPU v2 训练芯片

在 2017 年，谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”，那么显而易见，相比于专注于推理场景的 TPU v1，TPU v2 将自己的设计

1年前
168
点赞
评论

【AI系统】谷歌 TPU v2 训练芯片

【AI系统】谷歌 TPU v1-脉动阵列

本文深入探讨了谷歌 TPU v1 的架构和设计原理。我们将解析 TPU v1 芯片的关键元素，包括 DDR3 DRAM、矩阵乘法单元（MXU）、累加器和控制指令单元。重点介绍脉动阵列（Systolic

1年前
335
点赞
评论

【AI系统】谷歌 TPU v1-脉动阵列

【AI系统】谷歌 TPU 历史发展

在本文中，我们将深入探讨谷歌的 Tensor Processing Unit（TPU）的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路（ASIC），自

1年前
429
点赞
评论

【AI系统】谷歌 TPU 历史发展

【AI系统】NV Switch 深度解析

在当今的高性能计算领域，英伟达的 GPU 技术无疑是一颗璀璨的明星。随着 AI 和机器学习技术的飞速发展，对于计算能力的需求日益增长，GPU 之间的互联互通变得尤为重要。在这样的背景下，英伟达推出了

1年前
348
点赞
评论

【AI系统】NV Switch 深度解析

【AI系统】NVLink 原理剖析

随着 AI 技术的飞速发展，大模型的参数量已经从亿级跃升至万亿级，这一变化不仅标志着 AI 的显著提升，也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型，

1年前
670
点赞
评论

【AI系统】NVLink 原理剖析

【AI系统】分布式通信与 NVLink

在进入大模型时代后，大模型的发展已成为 AI 的核心，但训练大模型实际上是一项比较复杂的工作，因为它需要大量的 GPU 资源和较长的训练时间。此外，由于单个 GPU 工作线程的内存有限，并且许多大模

1年前
239
点赞
评论

【AI系统】分布式通信与 NVLink

【AI系统】Tensor Core 深度剖析

Tensor Core 是用于加速深度学习计算的关键技术，其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作，Tensor Core 能够在较短的时间内完成大量矩阵运算

1年前
288
点赞
评论

【AI系统】Tensor Core 深度剖析

【AI系统】Tensor Core 架构演进

自 Volta 架构时代起，英伟达的 GPU 架构已经明显地转向深度学习领域的优化和创新。2017 年，Volta 架构横空出世，其中引入的张量核心（Tensor Core）设计可谓划时代之作，这一设

1年前
330
点赞
评论

【AI系统】Tensor Core 架构演进

【AI系统】Tensor Core 基本原理

在英伟达的通用 GPU 架构中，主要存在三种核心类型：CUDA Core、Tensor Core 以及 RT Core。其中，Tensor Core 扮演着极其关键的角色。 Tensor Core 是

1年前
463
点赞
评论

【AI系统】Tensor Core 基本原理

【AI系统】GPU 架构回顾（从2018年-2024年）

Turing 架构 2018 年 Turing 图灵架构发布，采用 TSMC 12 nm 工艺，总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面，效率和性能都取得了重大进

1年前
467
点赞
评论

【AI系统】GPU 架构回顾（从2018年-2024年）