本文将带你深入了解如何为大模型部署选择合适的硬件,从需求分析到各组件选型,逐步引导你实现大模型的本地部署和应用。
一、大模型应用需求分析
- 算力消耗差异:大模型的本地部署主要应用于训练、高效微调以及推理三个方面。其中训练算力消耗最为密集,通常是推理过程的至少三个数量级以上;微调的算力需求低于训练但高于推理;推理则是算力消耗最低的阶段,即训练 > 微调 > 推理。
- 个人使用关注点:对于个人用户而言,从头训练一个大模型难度较大,关注点应放在推理和微调的性能上。在这两种应用需求下,硬件的核心要求体现在 GPU 的选择上,对 CPU 和内存的要求并不高。
- 模型与硬件关注点:如果想在本地运行大模型,可以将关注点拆分为两个方面,一是选择什么基座模型或微调模型并下载至本地;二是希望在什么硬件平台上执行,主要分为 CPU 和 GPU 两大类。大部分开源大模型支持在 CPU 和 Mac M 系列芯片上运行,但较为繁琐且占用内存至少 32G 以上,因此更推荐在 GPU 上运行。
二、硬件配置的选择标准
- 根据模型选硬件:不同的应用场景和目标任务需要相应的硬件配置方案来支持。因此,我们应根据部署的大模型配置需求,先选择出最合适的 GPU,然后再根据所选 GPU 的特性,搭配计算机的其他组件,如 CPU、内存和存储等,以确保整体系统的协调性和高效性能。最简单的匹配 GPU 的标准是显存大小和性价比。
- GPU 的关键参数:
-
- 计算能力:这是最受关注的指标,尤其是 32 位浮点计算能力。随着技术发展,16 位浮点训练也日渐普及。对于仅进行预测的任务,INT 8 量化版本也足够。
-
- 显存大小:大模型的规模和训练批量大小直接影响对显存的需求。更大的模型或更大的批量处理需要更多的显存。
-
- 显存带宽:决定了 GPU 处理器能够多快地从显存中读取数据和向显存中写入数据。显存带宽越高,GPU 处理大量数据时的性能通常也越好。但显存带宽相对固定,选择空间较小。
三、英伟达显卡在大模型领域的优势
- 强大的软件工具和库:在人工智能、大数据、深度学习领域,英伟达几乎独占鳌头。这主要是因为英伟达在早期就专注于 AI 和深度学习市场,开发了强大的软件工具和库,如 cuDNN、TensorRT 等,这些与流行的深度学习框架紧密集成。
- 独特的平行计算平台:英伟达的 CUDA(Compute Unified Device Architecture)作为独特的平行计算平台和编程模型,允许开发者利用英伟达的 GPU 进行高效的通用计算,这对于深度学习和大数据分析等需要大量并行处理的应用来说至关重要。
四、主流显卡性能分析
- 产品线划分:英伟达显卡可以按照产品线、架构以及应用领域进行划分。
- 高端显卡对比:像大模型领域这种生成式人工智能,需要强大的算力来生成文本、图像、视频等内容。英伟达先后推出 V100、A100 和 H100 等多款用于 AI 训练的芯片。其中 A100 是 H100 的上一代产品,H100 采用了台积电 4 纳米工艺,具备 800 亿个晶体管,采用最新 Neda Hopper 架构,显存还支持 hbm3,最高带宽可达 3TB 每秒。
- 中国特供版显卡:由于美国禁令,我们现在使用的 GPU 都是中国特供版的,如 A100 到国内就成了 A800,H100 到国内就成了 H800。虽然性能有所削弱,但在大部分场景下仍能满足使用需求。
- 个人和实验室显卡选择:个人使用或者实验室针对大模型的推理和微调需求配置服务器,高端显卡目前可选的有 A100、A800、H100 和 4090 等。
五、单卡 4090 vs A100 系列
- 推理任务:在执行推理任务时,使用 RTX 4090 不仅可行,而且在性价比方面甚至略优于 A100。虽然 A100 和 GeForce RTX 4090 显卡在通信能力和内存容量方面存在显著差异,但在算力上差距并不大。在 FP16 算力方面,4090 甚至略有优势。
- 微调任务:在大模型微调任务中,A100 等高端 GPU 可能是更合适的选择。因为微调过程需要足够的内存以存储模型参数,以及有效的通信带宽来处理数据和模型层之间的交互。而 4090 的通信带宽相对较低,在大规模训练任务中通信成为瓶颈。
六、单卡 4090 vs 双卡 3090
在预算差不多的情况下,对于两张 3090 与一张 4090 的选择,推荐使用两张 3090 显卡。虽然从算力角度看,两者大致持平,但两张 3090 显卡提供的总显存会更多,这对于处理大型模型尤为重要。同时,目前大多数深度学习计算框架都支持各种并行计算技术,双 3090 配置可以更有效地利用这些技术。
七、风扇卡与涡轮卡如何选择
- 供电接口与散热方向:涡轮卡的供电接口位置在接口尾部,方便安装和理线;散热方向朝尾部,与服务器风向一致。而风扇卡供电接口一般在显卡顶部,散热朝四面八方,不适合服务器多卡使用。
- 尺寸大小:涡轮卡尺寸为双宽设计,便于放入服务器;风扇卡尺寸一般是 2.5 - 3 倍宽,服务器可能无法容纳多块风扇卡。
- 面向市场:风扇卡面向个人游戏行业,外观炫酷;涡轮卡面向 AI 科技产业,做工精巧、支持多卡安装、性价比高。
八、整机参考配置
确定 GPU 后,需要根据 GPU 搭配合适的计算机组件。个人使用的计算机,典型的配置是单 GPU 或双 GPU。这里给出一个本地部署 ChatGLM - 6B 的配置示例,包括 3090 双卡涡轮版显卡、AMD 5900X CPU、64G 内存、2T SSD 数据盘、1600W 单电源、华硕 ROG X570 - E 主板、ROG 太阳神 601 机箱等。
九、显卡博弈的形式分析
- 英伟达新卡推出:老黄推出全新的超算 GPU H200,在大模型推理上速度几乎比前代的 H100 快了一倍,能耗还降低了一半。同时,还推出了 CPU 和 GPU 的合体芯片 GH200。
- 国内市场变化:美国对中国的高端芯片禁令不断升级,导致中国企业无法获得 NVIDIA 的尖端 AI 芯片。NVIDIA 推出中国特供 AI 芯片,但可能面临跳票。
- 显卡成为博弈工具:显卡强大的并行计算能力使其被多个领域盯上,从挖矿到 AI,显卡的重要性不断提升,也因此成为国际博弈的筹码。
十、国产 AI 超算芯片期待
美国对中国高端芯片的制裁,使得中国企业不得不选择国产芯片,这为国产芯片的发展提供了机会。目前国产 AI 芯片的可替代方案不少,如摩尔线程和壁仞科技等公司的产品值得关注。虽然这些公司面临一些问题,但华为在人工智能领域的全栈布局为国产芯片的发展带来了希望。
十一、组装计算机硬件选型策略
- GPU 选型策略:
-
- 选择厂商:目前独立显卡主要有 AMD 和 NVIDIA 两家厂商。其中 NVIDIA 在深度学习布局较早,对深度学习框架支持更好,建议选择 NVIDIA 的 GPU。
-
- 选择系列及品牌:对个人用户来说,从 NVIDIA 的 RTX 系列中选择合适的 GPU,考虑计算能力和显存大小。不同的显卡品牌及市场行情会导致显卡价格上下浮动。如果选择配置单机多卡,要注意买涡轮版显卡。
- CPU 选型策略:
-
- CPU 在大模型中的作用:CPU 在大模型使用中主要负责数据预处理,将数据从系统内存传输到 GPU 的显存中,同时处理 GPU 完成计算后的数据。在训练时,高性能的多核 CPU 能提高效率;在训练前,不需要非常好的 CPU。
-
- 选择品牌:目前消费市场 CPU 品牌主要有 Intel 和 AMD。Intel 目前市场占有率较高,AMD 在产品性能层面也可以和 Intel 正面硬刚。选择时要根据需求考虑性价比、游戏性能等因素。
- 散热选型策略:
-
- 风冷与水冷的选择:风冷和水冷系统都是用于 CPU 的散热解决方案。水冷系统在散热效率方面优于风冷系统,但对于没有超频需求的高性能 CPU,高质量的风冷系统也能够有效地散热。对于大模型部署,CPU 的等级要和 GPU 相匹配,中低端处理器一般推荐使用风冷系统,高性能处理器建议使用水冷系统。
- 主板选型策略:
-
- 选择合适的主板:在构建大模型的系统时,应从中端或高端主板中选择。选择主板时要确保与 CPU 的性能和超频能力相匹配,检查 CPU 和主板型号是否匹配及合理,考虑 PCIe 通道的版本、数量、布局和通道分配。
- 硬盘选型策略:
-
- 接口、协议和 PCIe 等级:主流固态硬盘主要有 SATA 和 M.2 接口,推荐选择 M.2 接口的 NVMe 协议硬盘,PCIe 等级一般选择 4.0 即可。硬盘速度会影响数据读取速度,进而影响深度学习任务的效率。
- 内存选型策略:
-
- 内存容量与 GPU 显存匹配:建议内存容量应大于 GPU 的显存。内存大小不会影响深度学习性能,但会影响执行 GPU 代码的效率。选择内存时要注意检查主板是否支持内存的数量及型号、内存频率。
- 电源选型策略:
-
- 选择合适的电源瓦数:在选择电脑电源时,要检查电源的瓦数是否足以支持整机的功耗。通常将 CPU 和显卡的 TDP 功耗相加后乘以 2 可以得到一个合适的电源瓦数估计。双卡最好 1000W 以上,四卡最好买 1600W 的电源。
- 机箱选型策略:
-
- 确保机箱兼容性:选择机箱时要确保足够宽敞,能够容纳所选的所有配件。要检查主板与机箱尺寸匹配性、机箱支持显卡尺寸、散热器与机箱的兼容性、机箱对电源尺寸的支持等。
通过以上全面的分析和选型策略,相信你可以为开源大模型的本地部署选择到合适的硬件配置,开启你的大模型探索之旅。💻🎉
以上内容仅供参考,具体硬件配置应根据实际需求和预算进行选择。😉