NVIDIA DGX 云与 Oracle 云基础架构上的高性能存储

avatar
@NVIDIA

这篇文章最初发表在 NVIDIA 技术博客上。

加速计算的惊人进步是由数据推动的。对于希望在当前快节奏的数字环境中保持领先的企业来说,数据在加速人工智能工作负载方面的作用至关重要。加速对这些数据的访问是 NVIDIA 加速整个人工智能工作流程的另一种方式

NVIDIA DGX Cloud满足各种各样的市场用例。 NVIDIA 在利用我们的基础设施合作伙伴提供的独特功能的软件集成方面投入了大量资金。 Oracle Cloud Infrastructure ( OCI )是 NVIDIA 的领先合作伙伴,致力于实现对实现 DGX Cloud 至关重要的计算、网络和存储基础设施

为了在 OCI 上为 NVIDIA DGX Cloud 实现高性能存储, NVIDIA 将 Oracle 的裸机基础设施与 NVIDIA NVMesh 软件配对。这使得文件存储能够根据需要进行扩展,以便在 DGX Cloud 上使用。

NVIDIA DGX Cloud ,由 NVIDIA 合作伙伴提供支持

NVIDIA DGX Cloud 是一个多节点人工智能即服务解决方案,为企业提供自己的云端人工智能超级计算机。它提供了工具、工作流程和领导力级别的性能,使开发人员能够通过加快洞察时间来提高生产力

DGX Cloud 无需为已经在云中运营的企业采购和安装超级计算机,只需打开浏览器即可开始。

DGX Cloud 由NVIDIA Base Command Platform,一个统一的界面,开发人员和组织管理员可以在其中进行交互,以进行实验和生命周期管理。他们还可以访问实验、用户和数据。 DGX Cloud 包括NVIDIA AI Enterprise,它提供了各种人工智能解决方案工作流程、框架和预训练模型,以加快洞察时间。

视频 1 。组织可以通过 NVIDIA Base Command 充分挖掘 NVIDIA DGX 基础设施的潜力 为了帮助实现 NVIDIA 云基础设施的预期性能, NVIDIA 与领先的云服务提供商合作,开发 NVIDIA 认证的计算基础设施,通常利用 GPU 和网络等关键 DGX 组件。 OCI 的云设计包括关键的设计元素,使访问高性能基础设施变得容易。这是运营 DGX Cloud 的一种引人注目的方式。

OCI 如何简化高性能存储

Oracle 的云设计使用了关键的 NVIDIA DGX 组件,并优先考虑高性能网络和存储。 OCI E4 DenseIO 计算实例(或形状)非常适合用作高性能存储的构建块。有关更多详细信息,请参阅Announcing E4 DenseIO Instances with Twice the Performance for Database and Analytics Workloads以及Oracle compute shape documentation.

裸露金属 E4 DenseIO 形状提供以下硬件配置:

  • 128 个 AMD EPYC 米兰处理器核心
  • 2 TB 系统内存
  • 在总共 8 个 NVMe 设备上提供 54.4 TB 的 NVMe 存储
  • 2 x 50 Gbps 高性能以太网

除了低延迟、高 I / O 性能( IOPS )的直连 NVMe 存储外, E4 DenseIO 形状上的两个 50 Gbps 物理 NIC 还可以构建一个冗余、高可用的并行文件系统。裸金属形状因子在超大型机中仍然不常见,它在没有虚拟化的情况下提供了专用资源。灵活的网络通过隔离提供了安全性,简化了多租户配置。

通过利用 E4 形状的性能能力以及形状提供的延展性(而不是更通用的文件服务),实现了在 Oracle 基础架构上最好地启用 DGX Cloud 的高性能存储设计。

使用 NVMesh 合成形状

NVMesh 软件是 DGX Cloud 利用 OCI 裸机实例的关键方法之一。 NVMesh 采用 OCI E4 形状提供的原始 NVMe 存储,并构建高性能数据卷,最大限度地提高底层硬件的性能。它还提供了避免因硬件故障而中断所需的数据保护功能。 NVMesh 还默认提供加密,进一步保护用户数据免受潜在的安全威胁。

在 OCI 上的 DGX Cloud 环境中,部署了许多 E4 DenseIO 形状以用于可用性域。这些形状是成对组织的, NVMesh 软件提供的每对都具有高可用性。然后,这些高可用性形状对被用作 Lustre 文件系统的基础,该文件系统在 DGX 云环境中作为 NVIDIA Base Command Platform 数据集和工作空间存储呈现给用户

A diagram showing OCI BM.DenseIO.E4 shapes organized in pairs as part of a Lustre file system, connected over a 50 Gbps Ethernet Fabric to OCI BM.GPU.A100-80 shapes for storage IO.
图 1 。 OCI 形状运行 NVMesh 软件连接,为 NVIDIA DGX Cloud 中的 GPU 集群启用高性能 Lustre 文件系统 如果需要额外的容量,可以提供额外的 HA 对,以扩展活动的 Lustre 文件系统,而不会停机。形状对的设计还考虑了元数据的可伸缩性。添加更多的 HA 对会随着容量线性扩展元数据,从而确保生成的 Lustre 文件系统不会在元数据容量或操作方面造成性能瓶颈

根据 NVIDIA 在 OCI 上使用 DGX Cloud 在广泛的现实世界加速计算应用程序中进行的测试,存储性能实现的结果与在本地 NVIDIA Base Command Platform 环境中观察到的结果相匹配。

Oracle 使 NVIDIA 能够轻松利用自动化和现有技术作为 DGX Cloud 集成的构建块。 OCI 为TerraformAPI 提供商在 Terraform 这样的工具中提供部分支持,将 Terraform 之外的用户引导到自定义软件组件以启用更新的功能,这并不罕见

然而, OCI 的情况并非如此,这导致了仅依靠 Terraform 实现基础设施自动化的卓越体验。此外oracle-quickstart/oci-nfsGitHb 上的 repo 为 NVIDIA 工程提供了一个关于 OCI 存储服务提升最佳实践的早期参考。这进一步加速了 NVIDIA 采用 OCI Terraform 功能的进程。

结论

NVIDIA DGX Cloud 由 NVIDIA Base Command Platform 提供支持,可提供一致的单窗格体验,以管理您的人工智能培训工作并查看您的基础设施和模型遥测。它还可以实现协作和资源共享,从而提高组织的生产力。

通过 NVIDIA 与 Oracle 的合作以及 NVMesh 等专门构建的软件, NVIDIA DGX 云环境可以优化利用云服务提供商的基础设施,加快人工智能工作流程的各个方面。 DGX Cloud 是各种工作负载的绝佳选择,从大型语言模型( LLM )到基于物理的机器学习。看见Designing Digital Twins with Flexible Workflows on NVIDIA Base Command Platform了解更多详细信息。

资源

 

阅读原文