AI系统

AI系统

AI系统

AI系统

暂无订阅共145篇文章创建于2024-12-13

转载：【AI系统】AI 芯片的思考

为了满足数据中心算力需求，谷歌在 2014 年开始研发基于特定领域架构（Domain-specific Architecture，DSA）的 TPU（Tensor Processing Unit），专

1年前
158
点赞
评论

转载：【AI系统】从 CUDA 对 AI 芯片思考

从技术的角度重新看英伟达生态，有很多值得借鉴的方面。本文将主要从流水编排、SIMT 前端、分支预测和交互方式等方面进行分析，同时对比 DSA 架构，思考可以从英伟达 CUDA 中借鉴的要点。英伟达生

1年前
193
点赞
评论

转载：【AI系统】CUDA 编程模式

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将以英伟达 GPU 为例，讲解 GPU 的编程模型。 GPU

1年前
166
点赞
评论

转载：【AI系统】SIMD & SIMT 与 CUDA 关系

前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析，结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比，本文将对不同并行的编程方式进行讲解，以英伟达 GPU 为

1年前
184
点赞
评论

转载：【AI系统】SIMD & SIMT 与芯片架构

为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系，本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质，以及对 NVIDIA CUDA 底层实现 SIMD/SIMT

1年前
122
点赞
评论

转载：【AI系统】芯片的编程体系

本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系，SIMT 与 CUDA 编程之间的关系，并且会讨论 GPU 在 SIMT 编程本质，SIMD、SIMT 与 DSA 架构，DSA 架构的主要形

1年前
128
点赞
评论

转载：【AI系统】昇腾数据布局转换

NHWC 的数据排布方式更适合多核 CPU 运算， NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中，这种特征图的存储方式。昇腾数据排布昇腾数据排

1年前
172
点赞
评论

转载：【AI系统】昇腾 AI 核心单元

本文将深入介绍昇腾 AI 处理器的核心单元——AI Core，以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器，其核心 AI Core 采用了特定域架构（Domain

1年前
153
点赞
评论

转载：【AI系统】昇腾 AI 处理器

本文将会介绍华为昇腾 AI 处理器的架构与卷积加速原理。昇腾 AI 处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器，它支持云边端一体化的全栈全场景解决方案，具有高能效比和强大的 3D Cub

1年前
243
点赞
评论

转载：【AI系统】昇腾 AI 架构介绍

昇腾计算的基础软硬件是产业的核心，也是 AI 计算能力的来源。华为，作为昇腾计算产业生态的一员，是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。而本文介绍的 AI 系

1年前
392
点赞
评论

转载：【AI系统】寒武纪介绍

中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日，其名字 Cambricon 是由 Cambrian（寒武纪）和 Silicon（硅）组合成。企业使命是：为客户创造价值，成为持续创新的

1年前
191
点赞
评论

转载：【AI系统】谷歌 TPUv4 与光路交换

TPU v4 和 TPU v3 中间相差了四年，在这四年之间，谷歌即使发布了许多对于业界非常重要的研究成果，但是在 TPU 的正代芯片上却没有什么更新。实际上，在 2018 年的 TPU v3 之后，

1年前
150
点赞
评论

转载：【AI系统】谷歌 TPUv3 POD 形态

TPU v3 vs. TPU v2 TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽，两杯 MXU 数量，峰值性

1年前
72
点赞
评论

转载：【AI系统】谷歌 TPUv2 训练芯片

在 2017 年，谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”，那么显而易见，相比于专注于推理场景的 TPU v1，TPU v2 将自己的设计

1年前
65
点赞
评论

转载：【AI系统】谷歌 TPU v1-脉动阵列

本文深入探讨了谷歌 TPU v1 的架构和设计原理。我们将解析 TPU v1 芯片的关键元素，包括 DDR3 DRAM、矩阵乘法单元（MXU）、累加器和控制指令单元。重点介绍脉动阵列（Systolic

1年前
150
点赞
评论

转载：【AI系统】谷歌 TPU 历史发展

在本文中，我们将深入探讨谷歌的 Tensor Processing Unit（TPU）的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路（ASIC），自

1年前
129
点赞
评论

转载：【AI系统】NVLink 原理剖析

随着 AI 技术的飞速发展，大模型的参数量已经从亿级跃升至万亿级，这一变化不仅标志着 AI 的显著提升，也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型，

1年前
257
点赞
评论

转载：【AI系统】分布式通信与 NVLink

在进入大模型时代后，大模型的发展已成为 AI 的核心，但训练大模型实际上是一项比较复杂的工作，因为它需要大量的 GPU 资源和较长的训练时间。此外，由于单个 GPU 工作线程的内存有限，并且许多大模

1年前
169
点赞
评论

转载：【AI系统】Tensor Core 深度剖析

Tensor Core 是用于加速深度学习计算的关键技术，其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作，Tensor Core 能够在较短的时间内完成大量矩阵运算

1年前
207
点赞
评论

转载：【AI系统】Tensor Core 架构演进

自 Volta 架构时代起，英伟达的 GPU 架构已经明显地转向深度学习领域的优化和创新。2017 年，Volta 架构横空出世，其中引入的张量核心（Tensor Core）设计可谓划时代之作，这一设

1年前
268
点赞
评论