AI计算架构对比:CPU, GPU, TPU, NPU, LPU

2 阅读9分钟

每位工程师都应了解的五大AI计算架构:CPU、GPU、TPU、NPU与LPU对比

现代AI不再由单一类型的处理器驱动——它运行在一个多样化的专用计算架构生态系统中,每种架构都在灵活性、并行性和内存效率之间做出了深思熟虑的权衡。传统系统严重依赖CPU,而如今的AI工作负载则分布在GPU上以进行大规模并行计算,分布在NPU上以实现高效的设备端推理,以及分布在专门为神经网络执行而设计、具有优化数据流的TPU上。

Groq的LPU等新兴创新进一步突破了界限,为大型语言模型提供了显著更快、更节能的推理。随着企业从通用计算转向工作负载特定的优化,理解这些架构已成为每位AI工程师的必备技能。

本文探讨一些最常见的AI计算架构,并剖析它们在设计、性能和实际用例方面的差异。

中央处理单元(CPU)

CPU(中央处理单元)仍然是现代计算的基础构建块,即使在AI驱动的系统中也扮演着关键角色。CPU专为通用工作负载设计,擅长处理复杂逻辑、分支操作和系统级编排。它充当计算机的“大脑”——管理操作系统、协调硬件组件,并执行从数据库到网页浏览器的广泛应用。虽然AI工作负载已越来越多地转向专用硬件,但CPU作为管理数据流、调度任务和协调GPU、TPU等加速器的控制器,仍然是不可或缺的。

从架构角度来看,CPU由少量高性能核心、深层缓存层次结构和访问片外DRAM的能力构成,支持高效的顺序处理和多任务处理。这使得CPU具有高度通用性、易于编程、广泛可用,并且对于通用计算任务具有成本效益。

然而,其顺序处理特性限制了处理大规模并行操作(如矩阵乘法)的能力,与GPU相比不太适合大规模AI工作负载。虽然CPU可以可靠地处理各种任务,但在处理海量数据集或高度并行计算时往往成为瓶颈——这正是专用处理器优于它们的地方。关键在于,CPU不会被GPU取代;相反,它们通过编排工作负载和管理整个系统来互补。

图形处理单元(GPU)

GPU(图形处理单元)已成为现代AI的支柱,尤其是在训练深度学习模型方面。GPU最初是为渲染图形而设计的,随着CUDA等平台的引入,演变成了强大的计算引擎,使开发者能够利用其并行处理能力进行通用计算。与专注于顺序执行的CPU不同,GPU旨在同时处理数千个操作——这使它们非常适合驱动神经网络的矩阵乘法和张量运算。这种架构上的转变正是GPU今天主导AI训练工作负载的原因。

从设计角度来看,GPU由数千个较小、较慢、针对并行计算优化的核心组成,能够将大问题分解为小任务并同时处理。这为数据密集型任务(如深度学习、计算机视觉和生成式AI)带来了巨大的加速。其优势在于高效处理高度并行的工作负载,并与流行的ML框架(如Python和TensorFlow)良好集成。

然而,GPU也有权衡——它们更昂贵,不如CPU容易获得,并且需要专门的编程知识。虽然它们在并行工作负载上显著优于CPU,但对于涉及复杂逻辑或顺序决策的任务效率较低。在实践中,GPU充当加速器,与CPU协同工作,处理计算密集型操作,而CPU负责编排和控制。

张量处理单元(TPU)

TPU(张量处理单元)是由某机构设计的、专门针对神经网络工作负载的高度专用AI加速器。与保留一定通用灵活性的CPU和GPU不同,TPU是为最大化深度学习任务效率而专门构建的。它们为某机构许多大规模AI系统提供动力——包括搜索、推荐以及Gemini等模型——服务于全球数十亿用户。通过纯粹专注于张量运算,TPU在性能和效率方面比GPU更进一步,尤其是在通过某云平台部署的大规模训练和推理场景中。

在架构层面,TPU使用乘加单元网格——通常称为矩阵乘法单元——其中数据以脉动(波浪状)模式流动。权重从一侧流入,激活值从另一侧流入,中间结果在网格中传播而无需反复访问内存,从而显著提高速度和能效。执行由编译器控制而非硬件调度,实现了高度优化且可预测的性能。这种设计使TPU对于AI核心的大规模矩阵运算极为强大。

然而,这种专用化也带来了权衡:TPU不如GPU灵活,依赖特定的软件生态系统(如TensorFlow、JAX或通过XLA的PyTorch),并且主要通过云环境访问。本质上,虽然GPU擅长并行通用加速,但TPU更进一步——牺牲灵活性以在大规模神经网络计算中实现无与伦比的效率。

神经处理单元(NPU)

NPU(神经处理单元)是一种专为高效、低功耗推理设计的AI加速器——特别是在边缘端。与面向大规模训练或数据中心工作负载的GPU不同,NPU针对直接在智能手机、笔记本电脑、可穿戴设备和物联网系统等设备上运行AI模型进行了优化。苹果(及其神经引擎)和英特尔等公司已采用这种架构,以实现实时AI功能,如语音识别、图像处理和设备端生成式AI。其核心设计聚焦于在个位数功耗预算内提供高吞吐量。

架构上,NPU围绕由乘加阵列、片上SRAM和最小化内存移动的优化数据路径构成的神经计算引擎构建。它们强调并行处理、低精度算术(如8位或更低),以及利用突触权重等概念的紧密内存与计算集成——这使得它们能够极其高效地处理神经网络。NPU通常与CPU和GPU一起集成到系统级芯片设计中,形成异构系统。

其优势包括超低延迟、高能效,以及无需依赖云端即可在本地处理计算机视觉和自然语言处理等AI任务的能力。然而,这种专用化也意味着它们缺乏灵活性,不适合通用计算或大规模训练,并且通常依赖于特定的硬件生态系统。本质上,NPU将AI带给用户——以原始算力换取效率、响应速度和设备端智能。

语言处理单元(LPU)

LPU(语言处理单元)是由Groq推出的新型AI加速器,专为超快速AI推理而构建。与仍保留一定通用灵活性的GPU和TPU不同,LPU从零开始设计,旨在以最高速度和效率执行大型语言模型。其决定性的创新在于将片外内存从关键执行路径中移除——将所有权重和数据保留在片上SRAM中。这大幅降低了延迟,并消除了内存访问延迟、缓存未命中和运行时调度开销等常见瓶颈。因此,与传统基于GPU的系统相比,LPU可提供显著更快的推理速度和高达10倍的能效提升。

架构上,LPU遵循软件优先、编译器驱动的设计,采用可编程的“流水线”模型,数据以确定性、完美调度的方式流经芯片。与动态硬件调度不同,每个操作都在编译时预先规划——确保零执行可变性和完全可预测的性能。使用片上内存和高带宽数据“传送带”消除了复杂的缓存、路由和同步机制。

然而,这种极端专用化也带来了权衡:每个芯片的内存容量有限,需要连接数百个LPU才能服务于大型模型。尽管如此,对于实时AI应用而言,其延迟和效率提升是巨大的。在许多方面,LPU代表了AI硬件演进谱系的最远端——从通用灵活性走向纯粹为速度和效率而构建的高度确定性、推理优化的架构。

不同架构的对比

AI计算架构存在于一个从灵活性到极端专用化的谱系上,每种架构都在AI生命周期的不同角色上进行了优化。CPU位于最灵活的一端,处理通用逻辑、编排和系统控制,但在大规模并行计算方面表现不佳。GPU向并行性迈进,利用数千个核心加速矩阵运算,成为训练深度学习模型的主流选择。

某机构开发的TPU更进一步,通过脉动阵列架构专攻张量运算,在结构化AI工作负载的训练和推理中提供更高的效率。NPU将优化推向边缘,通过以原始算力换取能效和低延迟,在智能手机和物联网系统等设备上实现低功耗、实时推理。在最远端,Groq推出的LPU代表了极端专用化——纯粹为超快速、确定性的AI推理而设计,采用片上内存和编译器控制的执行。

这些架构并非相互替代,而是异构系统中的互补组件,根据性能、规模和效率的具体需求部署每种处理器类型。FINISHED