NVIDIA 首席执行官黄仁勋亲手交付全球最小 AI 超级计算机 DGX Spark
全球最小的 AI 超级计算机——一个可置于办公桌上、性能达千万亿次计算的机箱
大家好,我是章北海
Nvidia 又出新了——全球最小 AI 超级计算机 NVIDIA DGX Spark
DGX Spark 配备 128GB 统一内存,可以在本地运行 2000 亿参数规模的大模型,微调 700 亿参数级别的大模型,它还支持开发者在本地创建 AI 智能体并运行先进软件栈。
开箱即用
硬件方面:
NVIDIA GB10 Grace Blackwell 超级芯片、NVIDIA ConnectX-7 200 Gb/s 网络及 NVIDIA NVLink™-C2C 技术加速实现,其 CPU-GPU 一致性内存达 128GB,带宽是第五代 PCIe 的 5 倍。
在 GPU 方面,GB10 可提供高达 1 PFLOP 的稀疏 FP4 张量性能 ,其 AI 能力大致介于 RTX 5070 和 5070 Ti 之间。最突出的特点是其 128 GB 一致性统一系统内存 ,可在 CPU 和 GPU 之间无缝共享。这种统一架构使 DGX Spark 能够直接加载和运行大型模型,无需承担系统内存与显存之间数据传输的开销。借助其双 QSFP 以太网端口(总带宽 200 Gb/s),可将两台 DGX Spark 设备连接组成小型集群,实现更大模型的分布式推理。据 NVIDIA 称,两台互联的 DGX Spark 可处理参数规模高达 4050 亿的 FP4 模型 。
DGX Spark 提供了令人印象深刻的连接选项:一个电源按钮、四个 USB-C 端口(最左侧支持高达 240 瓦功率输出 )、一个 HDMI 端口、一个 10 千兆以太网 RJ-45 接口 ,以及两个由 NVIDIA ConnectX-7 网卡驱动的 QSFP 端口,最高支持 200 Gbps 速率 。这些接口允许将两台 DGX Spark 设备互连,从而能够运行更大型的 AI 模型。
软件方面:
DGX Spark 集成了完整的 NVIDIA AI 平台——包括 GPU、CPU、网络、CUDA 库及 NVIDIA AI 软件栈,开发者能够调用 NVIDIA AI 生态系统工具,包括各类模型、函数库及 NVIDIA NIM™微服务,实现本地化工作流——例如定制 Black Forest Labs 的 FLUX.1 模型以优化图像生成,运用 NVIDIA Cosmos™ Reason 视觉语言模型创建视觉搜索与摘要代理,或是基于 Qwen3 构建专为 DGX Spark 优化的 AI 聊天机器人。
全金属机身配以优雅的香槟金涂层
测评
lmsys 做了测试,结果虽然 DGX Spark 确实能够加载并运行超大规模模型(如 GPT-OSS 120B 和 Llama 3.1 70B),但这些工作负载更适合用于原型设计和实验验证而非生产环境。DGX Spark 的真正优势在于服务小型模型 ,特别是在采用批处理技术最大化吞吐量时表现尤为出色。
具体来说在 Ollama 中运行 GPT-OSS 20B(MXFP4) 时,Spark 实现了 2,053 tps 预填充/49.7 tps 解码 ,是 RTX Pro 6000 Blackwell 是它的 5 倍** , GeForce RTX 5090 是它的 4 倍。这证实了 Spark 统一的 LPDDR5x 内存带宽是主要限制因素。在
但是 Spark 爆揍 Mac Mini M4 Pro 还是没问题的,比如 gpt-oss-20b 和 deepseek-r1-14b 上,Spark 预填充速度都秒杀 Mac Mini
| Device | Model Name | Model Size | Quantization | Batch Size | Prefill (tps) | Decode (tps) |
|---|---|---|---|---|---|---|
| NVIDIA DGX Spark | gpt-oss | 20b | mxfp4 | 1 | 2,053.98 | 49.69 |
| Mac Mini M4 Pro | gpt-oss | 20b | mxfp4 | 1 | 640.58 | 46.92 |
| NVIDIA DGX Spark | deepseek-r1 | 14b | q4_K_M | 1 | 2,500.24 | 20.28 |
| Mac Mini M4 Pro | deepseek-r1 | 14b | q4_K_M | 1 | 170.62 | 17.82 |
结论
这种统一内存架构使 DGX Spark 在原型开发 、 模型实验和边缘 AI 研究场景中极具价值——这些场景中流畅的内存访问往往比原始算力更重要。
简而言之,DGX Spark 并非设计为与完整规格的 Blackwell 或 Ada-Lovelace GPU 正面对抗 ,而是将 DGX 体验浓缩至紧凑且开发者友好的形态中。
它是以下场景的理想平台:
- • 模型原型设计与实验
- • 轻量级设备端推理
- • 关于内存一致性 GPU 架构的研究
这是一台设计精良、堪称完美的迷你超级计算机 ,它以牺牲部分原始性能为代价,换取了更高的易用性、能效和优雅设计,在这些方面确实表现出色。
参考:
blogs.nvidia.com/blog/live-d…
nvidianews.nvidia.com/news/nvidia…
lmsys.org/blog/2025-1…