用户32801108110

赞

1

|

搜索文章

转载：【AI系统】谷歌 TPUv3 POD 形态

TPU v3 vs. TPU v2 TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽，两杯 MXU 数量，峰值性

1年前
75
点赞
评论

转载：【AI系统】谷歌 TPUv2 训练芯片

在 2017 年，谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”，那么显而易见，相比于专注于推理场景的 TPU v1，TPU v2 将自己的设计

1年前
66
点赞
评论

转载：【AI系统】谷歌 TPU v1-脉动阵列

本文深入探讨了谷歌 TPU v1 的架构和设计原理。我们将解析 TPU v1 芯片的关键元素，包括 DDR3 DRAM、矩阵乘法单元（MXU）、累加器和控制指令单元。重点介绍脉动阵列（Systolic

1年前
155
点赞
评论

转载：【AI系统】谷歌 TPU 历史发展

在本文中，我们将深入探讨谷歌的 Tensor Processing Unit（TPU）的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路（ASIC），自

1年前
131
点赞
评论

转载：【AI系统】NV Switch 深度解析

在当今的高性能计算领域，英伟达的 GPU 技术无疑是一颗璀璨的明星。随着 AI 和机器学习技术的飞速发展，对于计算能力的需求日益增长，GPU 之间的互联互通变得尤为重要。在这样的背景下，英伟达推出了

1年前
303
点赞
评论

转载：【AI系统】NVLink 原理剖析

随着 AI 技术的飞速发展，大模型的参数量已经从亿级跃升至万亿级，这一变化不仅标志着 AI 的显著提升，也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型，

1年前
260
点赞
评论

转载：【AI系统】分布式通信与 NVLink

在进入大模型时代后，大模型的发展已成为 AI 的核心，但训练大模型实际上是一项比较复杂的工作，因为它需要大量的 GPU 资源和较长的训练时间。此外，由于单个 GPU 工作线程的内存有限，并且许多大模

1年前
171
点赞
评论

转载：【AI系统】Tensor Core 深度剖析

Tensor Core 是用于加速深度学习计算的关键技术，其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作，Tensor Core 能够在较短的时间内完成大量矩阵运算

1年前
211
点赞
评论

转载：【AI系统】Tensor Core 架构演进

自 Volta 架构时代起，英伟达的 GPU 架构已经明显地转向深度学习领域的优化和创新。2017 年，Volta 架构横空出世，其中引入的张量核心（Tensor Core）设计可谓划时代之作，这一设

1年前
275
点赞
评论

转载：【AI系统】Tensor Core 基本原理

在英伟达的通用 GPU 架构中，主要存在三种核心类型：CUDA Core、Tensor Core 以及 RT Core。其中，Tensor Core 扮演着极其关键的角色。 Tensor Core 是

1年前
361
点赞
评论

个人成就

文章被点赞 1

文章被阅读 20,905

加入于

2024-12-12