Nvidia DGX Spark是台式AI超算,提供本地化AI开发能力,统一内存架构支持大模型微调和推理,通过DGX OS整合Nvidia AI生态,优化开发者工作流。
译自:Nvidia DGX Spark: The New Stack Developer's Guide
作者:Janakiram MSV
在本地运行大型AI模型的能力定义了开发者生产力的下一个前沿。如果没有桌面级AI计算,数据科学家和AI开发者仍然受限于云基础设施,受到延迟、成本不可预测性和数据主权问题的制约。
Nvidia DGX Spark是一款紧凑型桌面外形的“个人AI超级计算机”。有了DGX Spark,开发者可以获得一个自包含的AI开发平台,将数据中心的功能带到他们的桌面,从而无需离开CUDA生态系统,即可对多达2000亿参数的模型进行快速迭代。
对于构建生产就绪模型的Nvidia科学家和AI开发者来说,理解DGX Spark的架构至关重要。其模式与熟悉的GPU计算概念相呼应——统一内存架构类似于现代SoC(片上系统)中的共享地址空间,软件栈扩展了您已在使用的Nvidia NGC容器生态系统,而集群功能则呼应了桌面规模的分布式训练范式。
本指南全面概述了DGX Spark的硬件规格、软件环境、主要用例以及定价和可用性的实际考量。
Nvidia DGX Spark是什么?
Nvidia DGX Spark是一款紧凑型AI工作站,以仅重2.6磅的桌面外形提供高达1 petaFLOP的FP4 AI性能。它围绕GB10 Grace Blackwell超级芯片构建,将基于ARM的CPU与Blackwell一代GPU集成在一个封装中,通过NVLink-C2C连接以实现高带宽的芯片间通信。
该系统预装了Nvidia完整的AI软件栈,使开发者无需配置复杂的依赖项即可对大型语言模型进行原型开发、微调和运行推理。
将DGX Spark视为一个针对开发者工作流优化的便携式数据中心节点。就像您可能使用高内存工作站进行数据预处理,然后再部署到生产集群一样,DGX Spark充当您的本地AI开发环境,在Spark上验证的模型可以在更大的DGX基础设施上无缝运行。
统一内存架构消除了CPU和GPU内存之间PCIe(外围组件互连快速)传输的传统瓶颈,允许两个处理器无缝访问相同的128 GB内存池。
该系统代表了Nvidia将其生态系统从云和数据中心部署扩展到个人开发者工作站的战略。该设备最初在CES 2025上作为DIGITS项目发布,随后在GTC 2025上更名为DGX Spark,并于去年10月实现商业可用。它面向AI研究员、数据科学家和学生,他们需要持续访问强大的本地计算来进行模型开发,而无需争夺共享集群资源或管理云成本。
硬件架构:GB10 Grace Blackwell超级芯片
DGX Spark的核心是Nvidia GB10 Grace Blackwell超级芯片,这是一个与MediaTek共同设计的片上系统,将计算、内存和高速网络集成到一个封装中。GB10结合了20核ARM CPU(具有10个高性能Cortex-X925核心和10个效率导向的Cortex-A725核心)以及配备第五代Tensor Cores的Blackwell一代GPU。这种架构平衡了原始计算能力与能源效率,使整个系统能够在140瓦的热设计功耗包络内运行。
这里的类比很简单:GB10的功能类似于您在现代移动设备中遇到的集成式SoC,但针对AI工作负载进行了扩展。正如Apple的M系列芯片统一了CPU和GPU内存以实现无缝数据访问一样,GB10提供了相干的统一内存寻址,其中两个处理器共享相同的物理DRAM而无需显式数据传输。
CPU和GPU通过NVLink-C2C互连而不是PCIe进行通信,与独立GPU配置相比,提供了更快、更节能的芯片间通信。
考虑一个场景,您正在加载一个700亿参数的模型进行微调。在传统的独立GPU设置中,模型权重必须通过PCIe总线从系统RAM传输到VRAM,带宽限制在大约64GB/s。而DGX Spark的统一内存,整个128GB内存池可由CPU和GPU直接访问,消除了这种传输开销。GPU可以立即开始张量操作,而CPU在相同的地址空间中处理预处理。
内存配置
DGX Spark配备128 GB的LPDDR5X统一内存,由围绕GB10封装的八个16GB芯片组成。此内存由CPU和GPU相干共享,提供大约273 GB/s的总带宽。虽然此带宽低于RTX 5090等独立GPU的1700 GB/s,但统一架构通过完全消除CPU-GPU数据传输的PCIe瓶颈来弥补。
存储子系统
该系统支持1TB到4TB的NVMe(非易失性内存高速)存储配置,具体取决于SKU,Nvidia创始人版附带4TB存储。存储可以配置自加密,以满足具有数据安全要求的组织的需求。NVMe接口提供了足够的吞吐量,可在开发迭代期间加载大型模型检查点和数据集。
网络功能
DGX Spark包括一个Nvidia ConnectX-7 SmartNIC,提供双QSFP(四通道小型可插拔)端口,能够提供200 Gbps的总带宽。这种企业级网络硬件,作为独立组件通常价值超过1500美元,使两个DGX Spark单元能够集群在一起,对多达4050亿参数的模型进行分布式推理。其他连接包括一个10 GbE RJ-45以太网端口、四个支持240瓦供电的USB-C端口、HDMI输出和Wi-Fi 7,以适应灵活的部署场景。
散热和电源设计
紧凑型机箱采用前后气流冷却,前后表面均配有金属泡沫面板。该系统需要随附的240W USB-C电源适配器才能获得最佳性能,对于工作站级硬件而言,这是一种不寻常的设计选择,它简化了在没有专用电源基础设施的办公环境中的部署。
软件环境:DGX OS和AI栈
DGX Spark运行DGX OS,这是一个定制化的基于Ubuntu 24.04的Linux发行版,针对Nvidia硬件上的AI工作负载进行了优化。操作系统预配置了完整的CUDA工具包、cuDNN库、用于优化推理的TensorRT以及Nvidia容器运行时(用于Docker)。这种开箱即用的软件配置消除了在设置GPU环境时通常会消耗开发者数小时的复杂驱动程序和依赖项管理。
将DGX OS视为一个经过验证的AI开发参考平台。正如企业级Linux发行版为生产服务器提供经过测试、支持的配置一样,DGX OS提供了一个专门针对GB10硬件验证的已知良好软件环境。
相同的DGX OS基础在数据中心中更大的DGX系统上运行,确保在Spark上开发的代码迁移到生产基础设施时不会出现兼容性问题。
该软件栈包括对Nvidia NGC的访问,这是一个GPU优化容器、预训练模型和AI框架的注册表。开发者可以拉取针对Grace Blackwell架构进行性能调优的PyTorch、TensorFlow和JAX容器。
NGC还提供对Nvidia NIM微服务(用于模型服务)和Nvidia Blueprints(用于标准化AI应用程序模式)的访问。这些资源通过提供经过验证的起点来加速开发,而无需从头开始进行环境配置。
容器运行时集成
Nvidia容器运行时预装并配置好,使Docker容器能够透明地访问GPU资源。开发者可以立即从NGC拉取并运行GPU加速容器,无需额外设置。ARM64原生的NGC CLI提供了对针对Grace CPU架构优化的容器注册表和模型下载的命令行访问。
开发工具
DGX Spark包括一个可通过网页浏览器访问的集成DGX仪表板,用于监控系统利用率、管理JupyterLab会话和配置系统设置。该仪表板提供了对GPU和内存利用率的可见性,无需SSH访问,使其对偏好图形界面的开发者也易于使用。JupyterLab集成支持在Spark硬件上直接进行交互式基于笔记本的开发。
框架兼容性
包括PyTorch和TensorFlow在内的主要深度学习框架在DGX Spark上原生运行,并提供完整的CUDA加速。RAPIDS和Dask等数据科学工具也受支持,可以实现GPU加速的数据处理工作流和模型训练。该系统支持包括Ollama、SGLang和vLLM在内的流行推理框架,用于本地服务大型语言模型。
主要用例:DGX Spark的优势所在
DGX Spark专为AI工作流的迭代开发阶段而设计,在该阶段,快速实验比生产规模的吞吐量更为重要。128GB的统一内存容量和完整的CUDA支持使其成为那些原本依赖云GPU实例或共享集群分配的团队的本地开发环境。
模型原型开发和实验
DGX Spark使开发者能够完全离线地进行AI工作流原型开发,在投入云资源之前测试模型架构、数据管道和服务配置。一致的硬件环境消除了共享基础设施的变数,在整个开发会话中提供可重现的结果。团队可以在提示工程、检索增强生成管道和代理式AI工作流上进行迭代,而无需按小时支付计算成本。
微调中型模型
凭借128GB的统一内存,DGX Spark支持微调多达约700亿参数的模型,具体取决于精度和技术。开发者可以为特定领域应用定制基础模型,训练LoRA(低秩适应)适配器,或对开源模型执行指令微调。本地执行将专有训练数据保留在本地,解决了具有数据主权限制的组织的合规性要求。
大型语言模型推理
DGX Spark可以对多达2000亿参数的模型进行推理,包括Llama、DeepSeek、Mistral和Qwen等流行的开源模型。该系统擅长提示处理,即LLM推理的计算密集型阶段,其中Blackwell GPU的张量核心提供了强大的性能。令牌生成速度受内存带宽限制,因此Spark最适合开发验证而非高吞吐量生产服务。
本地AI应用开发
CUDA支持、容器运行时和网络功能的结合使DGX Spark适用于开发最终将部署到边缘或本地环境的AI驱动应用程序。构建机器人应用、计算机视觉系统或私有AI助手的开发者可以在部署前在本地进行开发和测试。一致的软件栈确保容器化应用程序在Spark和生产DGX基础设施上运行相同。
教育和研究
大学和研究机构可以为学生和研究员提供专用的AI计算资源,而无需管理共享集群调度或云预算。DGX Spark的自包含特性简化了IT管理,同时为学术项目提供了访问企业级AI软件和硬件的途径。
理解权衡
DGX Spark代表了计算频谱中的一个特定点,了解其局限性有助于开发者选择合适的工作负载。273 GB/s的内存带宽虽然足以满足开发工作流,但与具有专用高带宽内存的独立GPU相比,限制了令牌生成速度。对于需要最大吞吐量的生产推理,仍然需要更大的系统或GPU集群。
ARM64 CPU架构为假定x86处理器的软件引入了兼容性考量。虽然CUDA生态系统和主要框架支持ARM64,但一些专业工具和库可能需要额外配置或替代方案。DGX OS提供了经过最彻底测试的软件环境,社区正在努力扩展分发兼容性。
| 要求 | DGX Spark适用性 | 理由 |
|---|---|---|
| 原型开发LLM应用 | 优秀 | 完整CUDA栈、128 GB内存、本地执行 |
| 微调多达700亿参数的模型 | 优秀 | 统一内存支持大型模型微调 |
| 对多达2000亿参数的模型进行推理验证 | 良好 | 内存容量支持加载,带宽限制速度 |
| 高吞吐量生产推理 | 有限 | 内存带宽限制令牌生成速率 |
| 多GPU分布式训练 | 有限 | 仅支持双节点集群,不适用于大规模训练 |
| 以Windows为主的工作流 | 不推荐 | DGX OS基于Ubuntu,不支持Windows |
| 通用桌面计算 | 不推荐 | 针对AI工作负载优化,不适用于消费级应用 |
生产部署通常将DGX Spark用于开发,并结合更大的DGX系统或云基础设施进行训练和服务。DGX家族一致的软件栈确保在Spark上验证的代码可以部署到生产环境而无需大量返工。
定价和可用性
Nvidia DGX Spark于2025年10月15日商业上市,创始人版定价3999美元,包含4TB NVMe存储。此定价使DGX Spark成为专业AI开发的一项重要但可承受的投资,大约相当于数百小时的云GPU租用,同时提供无限的本地计算访问。
基于GB10架构的合作伙伴OEM系统提供更多选择,起价更低。配备1TB存储的华硕 Ascent GX10定价约为2999美元,而Dell、HP、Lenovo及其他合作伙伴的系统提供不同的存储配置和外形。国际定价因增值税和地区因素而异,英国零售价约为3700英镑,欧盟市场约为3689欧元。
直接购买选项
Nvidia通过其市场marketplace.nvidia.com直接销售创始人版,包括一个价值90美元的免费深度学习学院课程。自发布以来供应一直受限,许多零售商显示按需订购或缺货状态,而非立即供货。
OEM合作伙伴系统
几家Nvidia合作伙伴提供基于GB10的系统,在存储、散热设计和定价方面有所不同。Dell的Pro Max(配备GB10)与Dell AI Factory生态系统集成,适用于标准化Dell基础设施的组织。HP的ZGX Nano AI工作站面向具有HP支持和保修结构的企业环境。华硕、宏碁、技嘉、联想和微星也已宣布或发布了具有不同配置的基于GB10的系统。这些合作伙伴系统运行相同的DGX OS和软件栈,确保无论硬件供应商如何,都与Nvidia的AI平台兼容。
成本考量
对于持续的开发工作负载,一次性硬件成本与云GPU租用相比具有优势。以每小时2到10美元的典型云定价,DGX Spark的购买价格相当于数百小时的计算时间,并具有数据隐私、零出口费用和消除竞价实例波动等额外好处。对数据本地性有合规性要求的组织可能会在本地AI开发基础设施中发现特殊价值。
后续内容
Nvidia DGX Spark代表了AI开发基础设施的重大转变,将完整的DGX软件栈带给以前依赖云资源或共享集群的个人开发者和小型团队。统一内存架构消除了传统的CPU-GPU数据传输瓶颈,而Nvidia完整的AI栈确保了与生产DGX部署的兼容性。
对于数据科学家和AI开发者来说,这些模式都很熟悉。GB10的统一内存行为类似于您在Apple Silicon或移动处理器中遇到的现代SoC架构。NGC容器生态系统扩展了您在云GPU上使用的相同工具。DGX OS环境反映了在企业DGX基础设施上运行的内容。
对于AI团队而言,实际意义是在开发到部署工作流中多了一个新选择。DGX Spark为迭代开发阶段提供了持续、可预测的本地计算,在该阶段,实验速度比原始吞吐量更为重要。团队可以在投入生产基础设施之前,在本地验证模型、测试服务配置和开发代理式AI工作流。在本地DGX Spark开发和云资源之间做出选择取决于工作负载特性、数据敏感性要求以及每个组织特定的成本结构。
在下一篇文章中,我们将仔细研究DGX OS和软件栈。敬请期待!