AI工厂令牌生产加速：统一服务与实时AI架构本文介绍了NVIDIA Mission Control 3.0的模块化API

使用统一服务和实时AI加速AI工厂中的令牌生产

在当今的AI工厂环境中，性能并非理论概念，而是经济、竞争和生存的关键。可用GPU时间下降1%，可能意味着每小时损失数百万令牌。几分钟的拥塞可能演变成数小时的恢复时间。机架级功率过载会导致功率闲置和每瓦特令牌产量下降，悄无声息地大规模削弱工厂产出。随着AI工厂扩展到数千个运行各类关键任务工作负载的GPU，不可预测的拥塞、功率限制、长尾延迟和有限可见性的成本呈指数级增长。

运维团队和管理员需要的不仅仅是仪表板，还需要灵活性和预见性。

某机构推出了NVIDIA Mission Control，作为基于NVIDIA参考架构构建的AI工厂集成软件栈，通过统一控制平面实现了NVIDIA最佳实践的规范化。Mission Control 3.0版本进一步扩展，引入了架构灵活性、多组织隔离、智能功耗编排和预测性AIOps，用于检测运维中的异常并最大化令牌产量。

图1. NVIDIA Mission Control提供了一个经过验证的软件栈，包含用于运维敏捷性、监控和弹性的服务。

释放速度的灵活软件

NVIDIA Mission Control 3.0通过引入基于模块化服务的新型分层API驱动架构，提供了全新的敏捷性，改进了以往需要同步发布和跨硬件平台复杂验证的紧耦合栈。新的组件（如自动化网络管理和域功率服务）通过将更多模块化服务引入单一控制平面，进一步扩展了Mission Control栈。

通过将开放组件与模块化设计相结合，该架构能够快速支持最新的NVIDIA硬件，同时允许OEM系统提供商和独立软件供应商（ISV）将Mission Control功能直接集成到其自身生态系统中。这使企业在其软件栈中拥有更大的灵活性和选择权，能够更轻松地定制解决方案以应对其独特的业务和技术挑战。

多租户世界中的隔离

许多组织面临的一个技术挑战是：在集中式AI工厂内支持多组织隔离。随着AI工厂从研究和实验演变为生产级、任务关键型环境，跨多个团队的共享基础设施需要强大的组织隔离和安全的 multi-tenancy。

增强后的Mission Control控制平面将AI工厂管理栈转变为软件定义的虚拟化架构。Mission Control服务与物理管理节点解耦，并使用某机构提供的自动化工具部署在基于虚拟机(KVM)的平台上。虽然计算机架和管理节点按组织专用，但网络交换机是共享的，需要额外的隔离来实现 multi-tenancy。NVIDIA Spectrum-X以太网的共享交换架构使用VXLAN进行逻辑分段，NVIDIA Quantum InfiniBand则使用PKeys进行分段。

图2. 使用NVIDIA Mission Control的多组织部署采用虚拟化技术，并为每个需要网络隔离的组织提供专用的计算和控制平面。

该架构减少了物理管理基础设施的占用空间，建立了硬性的租户隔离，并为多组织AI工厂奠定了安全基础。这反过来又降低了总体拥有成本，因为运维人员可以灵活地将多个组织接入共享基础设施，减少购买和运维多个集群的需求，降低物理占用空间，同时仍为每个组织提供强大的隔离和自助服务能力。

功率：无形的约束

AI工厂令牌生产的另一个日益突出的问题是固定的功率上限，这是由经济约束（如固定公用事业成本和法规遵从性）造成的。每一代GPU都能提供更高的性能，但设施功率自然受到现有数据中心基础设施和可用电网的双重限制。挑战显而易见：如何在不超出功率限制的情况下提高令牌输出和机架密度？

早期版本Mission Control的电源管理帮助组织负责任地管理复杂的功率问题，但它是被动的：先调度作业，后执行功率策略。虽然这是在平衡功率与性能方面迈出的一大步，但需要更动态的解决方案来大规模管理功率问题，尤其是在混合Slurm和Kubernetes环境中。这正是Mission Control 3.0版本的进化之处。

通过将域功率服务直接纳入Mission Control，功率成为一等调度原语，帮助组织根据其功率策略优化令牌生产。该功率管理服务支持在传统Slurm工作负载或由NVIDIA Run:ai编排的Kubernetes原生工作负载（已集成并包含在Mission Control栈中）上进行功率感知型工作负载放置。域功率服务还支持用于训练和推理的MAX-P和MAX-Q配置文件，并利用Mission Control与设施楼宇管理系统的集成，提供机架感知和拓扑感知的资源预留引导。

图3. NVIDIA Mission Control使用域功率服务进行全面的功率管理，持续监控和优化AI工厂的功率利用率。

在一个某机构运行MAX-Q配置文件的实例中，域功率服务使数据中心能够以85%的功率运行，仅损失7%的吞吐量。这是通过动态利用Mission Control集成的功率配置文件实现的。

这种集成使数据中心运维人员能够定义设施约束，AI从业者可以根据其工作负载优先级自信地选择性能模式或效率模式。治理保持集中化，而灵活性确保AI工厂可以针对每瓦特最佳性能和每美元最佳性能进行调整。

从仪表板到实时决策

除了提供动态功率管理的新服务外，Mission Control 3.0还通过与NVIDIA AIOps采集器与平台栈(NACPS)集成，增强了现有的异常检测能力，实现了AI驱动的预测性异常检测。NACPS的核心是AI集群模型，这是一个基于图的基础设施和工作负载表示，可创建跨GPU、NVIDIA NVLink纵向扩展、NVIDIA Spectrum-X以太网或NVIDIA Quantum InfiniBand东西向横向扩展以及NVIDIA BlueField DPU南北向网络的拓扑感知视图。该视图与集群模型中的作业拓扑相结合。

图4. NVIDIA AIOps采集器与平台栈(NACPS)作为NVIDIA Mission Control 3.0的一部分，提供AI驱动的预测性异常检测。它从AI工厂代理收集数据，并结合机器学习和关联分析，向AI工厂发回预测性工作流和修复措施。

NACPS结合了对指标的无监督在线机器学习、基于自然语言处理(NLP)的日志分析以检测未知问题、在标记事件上训练的有监督学习，以及确定性的基于规则的护栏。

遥测数据从GPU、交换机、主机、网卡(NIC)和调度器持续流入NACPS。事件和异常会在各层之间自动关联，实现上下文驱动的根因分析，同时减少告警噪音。该系统不再关注孤立的指标，而是理解各组件之间的关系。

当检测到异常时，Mission Control可以触发自动化的修复工作流，包括与NVIDIA Base Command Manager中的Slurm集成或针对Kubernetes工作负载的NVIDIA Run:ai协同工作的自动化硬件恢复。

该系统不仅监控基础设施，还能理解它并对其采取行动。运维人员不再需要追逐症状，他们获得了预见性。

另一种KPI：利用率 vs. 令牌生产

随着AI工厂运维的持续发展，运维团队需要考虑一种不同的KPI。传统数据中心针对利用率进行了优化，但AI工厂需要针对令牌生产进行优化。

为了使AI工厂针对令牌生产进行优化，企业需要考虑以下指标：每GPU和每机架的令牌产量，以及每瓦特和每兆瓦的令牌产量。每一个低效率都会直接降低总令牌输出。如果网络架构中的拥塞未被检测和缓解，或者单个机架意外超出其功率限制，或者计算节点在作业中途出现异常——AI工厂都会损失令牌生成和潜在收入。

然而，当AI工厂智能运行时，它能够将每一兆瓦精确地转化为令牌，从而最大化输出。

开始使用Mission Control

Mission Control 3.0旨在最大限度地减少低效率并提高AI工厂运维人员的令牌产量。通过跨领域关联遥测数据、智能编排功率、模块化架构以实现敏捷性，以及利用AI增强自主修复，它将基础设施从被动平台转变为性能优化的主动参与者。FINISHED