全球最小的AI超级计算机:本地跑大模型,秒杀Mac Mini

170 阅读4分钟

NVIDIA 首席执行官黄仁勋亲手交付全球最小 AI 超级计算机 DGX Spark

NVIDIA 首席执行官黄仁勋亲手交付全球最小 AI 超级计算机 DGX Spark

全球最小的 AI 超级计算机——一个可置于办公桌上、性能达千万亿次计算的机箱

全球最小的 AI 超级计算机——一个可置于办公桌上、性能达千万亿次计算的机箱

大家好,我是章北海

Nvidia 又出新了——全球最小 AI 超级计算机 NVIDIA DGX Spark

DGX Spark 配备 128GB 统一内存,可以在本地运行 2000 亿参数规模的大模型,微调 700 亿参数级别的大模型,它还支持开发者在本地创建 AI 智能体并运行先进软件栈。

开箱即用

硬件方面
NVIDIA GB10 Grace Blackwell 超级芯片、NVIDIA ConnectX-7 200 Gb/s 网络及 NVIDIA NVLink™-C2C 技术加速实现,其 CPU-GPU 一致性内存达 128GB,带宽是第五代 PCIe 的 5 倍。

在 GPU 方面,GB10 可提供高达 1 PFLOP 的稀疏 FP4 张量性能 ,其 AI 能力大致介于 RTX 5070 和 5070 Ti 之间。最突出的特点是其 128 GB 一致性统一系统内存 ,可在 CPU 和 GPU 之间无缝共享。这种统一架构使 DGX Spark 能够直接加载和运行大型模型,无需承担系统内存与显存之间数据传输的开销。借助其双 QSFP 以太网端口(总带宽 200 Gb/s),可将两台 DGX Spark 设备连接组成小型集群,实现更大模型的分布式推理。据 NVIDIA 称,两台互联的 DGX Spark 可处理参数规模高达 4050 亿的 FP4 模型 。

DGX Spark 提供了令人印象深刻的连接选项:一个电源按钮、四个 USB-C 端口(最左侧支持高达 240 瓦功率输出 )、一个 HDMI 端口、一个 10 千兆以太网 RJ-45 接口 ,以及两个由 NVIDIA ConnectX-7 网卡驱动的 QSFP 端口,最高支持 200 Gbps 速率 。这些接口允许将两台 DGX Spark 设备互连,从而能够运行更大型的 AI 模型。

DGX Spark 提供了令人印象深刻的连接选项:一个电源按钮、四个 USB-C 端口(最左侧支持高达 240 瓦功率输出 )、一个 HDMI 端口、一个 10 千兆以太网 RJ-45 接口 ,以及两个由 NVIDIA ConnectX-7 网卡驱动的 QSFP 端口,最高支持 200 Gbps 速率 。这些接口允许将两台 DGX Spark 设备互连,从而能够运行更大型的 AI 模型。

软件方面
DGX Spark 集成了完整的 NVIDIA AI 平台——包括 GPU、CPU、网络、CUDA 库及 NVIDIA AI 软件栈,开发者能够调用 NVIDIA AI 生态系统工具,包括各类模型、函数库及 NVIDIA NIM™微服务,实现本地化工作流——例如定制 Black Forest Labs 的 FLUX.1 模型以优化图像生成,运用 NVIDIA Cosmos™ Reason 视觉语言模型创建视觉搜索与摘要代理,或是基于 Qwen3 构建专为 DGX Spark 优化的 AI 聊天机器人。

全金属机身配以优雅的香槟金涂层

全金属机身配以优雅的香槟金涂层

测评

lmsys 做了测试,结果虽然 DGX Spark 确实能够加载并运行超大规模模型(如 GPT-OSS 120B 和 Llama 3.1 70B),但这些工作负载更适合用于原型设计和实验验证而非生产环境。DGX Spark 的真正优势在于服务小型模型 ,特别是在采用批处理技术最大化吞吐量时表现尤为出色。

具体来说在 Ollama 中运行 GPT-OSS 20B(MXFP4) 时,Spark 实现了 2,053 tps 预填充/49.7 tps 解码 ,是 RTX Pro 6000 Blackwell 是它的 5 倍** , GeForce RTX 5090 是它的 4 倍。这证实了 Spark 统一的 LPDDR5x 内存带宽是主要限制因素。在

但是 Spark 爆揍 Mac Mini M4 Pro 还是没问题的,比如 gpt-oss-20b 和 deepseek-r1-14b 上,Spark 预填充速度都秒杀 Mac Mini

DeviceModel NameModel SizeQuantizationBatch SizePrefill (tps)Decode (tps)
NVIDIA DGX Sparkgpt-oss20bmxfp412,053.9849.69
Mac Mini M4 Progpt-oss20bmxfp41640.5846.92
NVIDIA DGX Sparkdeepseek-r114bq4_K_M12,500.2420.28
Mac Mini M4 Prodeepseek-r114bq4_K_M1170.6217.82

结论

这种统一内存架构使 DGX Spark 在原型开发 、 模型实验边缘 AI 研究场景中极具价值——这些场景中流畅的内存访问往往比原始算力更重要。

简而言之,DGX Spark 并非设计为与完整规格的 Blackwell 或 Ada-Lovelace GPU 正面对抗 ,而是将 DGX 体验浓缩至紧凑且开发者友好的形态中。

它是以下场景的理想平台:

  • 模型原型设计与实验
  • 轻量级设备端推理
  • 关于内存一致性 GPU 架构的研究
    这是一台设计精良、堪称完美的迷你超级计算机 ,它以牺牲部分原始性能为代价,换取了更高的易用性、能效和优雅设计,在这些方面确实表现出色。

参考:
blogs.nvidia.com/blog/live-d…
nvidianews.nvidia.com/news/nvidia…
lmsys.org/blog/2025-1…