使用统一服务和实时AI加速AI工厂中的令牌生产
在当今的AI工厂环境中,性能并非理论概念,而是经济、竞争和生存的关键。可用GPU时间下降1%,可能意味着每小时损失数百万令牌。几分钟的拥塞可能演变成数小时的恢复时间。机架级功率过载会导致功率闲置和每瓦特令牌产量下降,悄无声息地大规模削弱工厂产出。随着AI工厂扩展到数千个运行各类关键任务工作负载的GPU,不可预测的拥塞、功率限制、长尾延迟和有限可见性的成本呈指数级增长。
运维团队和管理员需要的不仅仅是仪表板,还需要灵活性和预见性。
某机构推出了NVIDIA Mission Control,作为基于NVIDIA参考架构构建的AI工厂集成软件栈,通过统一控制平面实现了NVIDIA最佳实践的规范化。Mission Control 3.0版本进一步扩展,引入了架构灵活性、多组织隔离、智能功耗编排和预测性AIOps,用于检测运维中的异常并最大化令牌产量。
图1. NVIDIA Mission Control提供了一个经过验证的软件栈,包含用于运维敏捷性、监控和弹性的服务。
释放速度的灵活软件
NVIDIA Mission Control 3.0通过引入基于模块化服务的新型分层API驱动架构,提供了全新的敏捷性,改进了以往需要同步发布和跨硬件平台复杂验证的紧耦合栈。新的组件(如自动化网络管理和域功率服务)通过将更多模块化服务引入单一控制平面,进一步扩展了Mission Control栈。
通过将开放组件与模块化设计相结合,该架构能够快速支持最新的NVIDIA硬件,同时允许OEM系统提供商和独立软件供应商(ISV)将Mission Control功能直接集成到其自身生态系统中。这使企业在其软件栈中拥有更大的灵活性和选择权,能够更轻松地定制解决方案以应对其独特的业务和技术挑战。
多租户世界中的隔离
许多组织面临的一个技术挑战是:在集中式AI工厂内支持多组织隔离。随着AI工厂从研究和实验演变为生产级、任务关键型环境,跨多个团队的共享基础设施需要强大的组织隔离和安全的 multi-tenancy。
增强后的Mission Control控制平面将AI工厂管理栈转变为软件定义的虚拟化架构。Mission Control服务与物理管理节点解耦,并使用某机构提供的自动化工具部署在基于虚拟机(KVM)的平台上。虽然计算机架和管理节点按组织专用,但网络交换机是共享的,需要额外的隔离来实现 multi-tenancy。NVIDIA Spectrum-X以太网的共享交换架构使用VXLAN进行逻辑分段,NVIDIA Quantum InfiniBand则使用PKeys进行分段。
图2. 使用NVIDIA Mission Control的多组织部署采用虚拟化技术,并为每个需要网络隔离的组织提供专用的计算和控制平面。
该架构减少了物理管理基础设施的占用空间,建立了硬性的租户隔离,并为多组织AI工厂奠定了安全基础。这反过来又降低了总体拥有成本,因为运维人员可以灵活地将多个组织接入共享基础设施,减少购买和运维多个集群的需求,降低物理占用空间,同时仍为每个组织提供强大的隔离和自助服务能力。
功率:无形的约束
AI工厂令牌生产的另一个日益突出的问题是固定的功率上限,这是由经济约束(如固定公用事业成本和法规遵从性)造成的。每一代GPU都能提供更高的性能,但设施功率自然受到现有数据中心基础设施和可用电网的双重限制。挑战显而易见:如何在不超出功率限制的情况下提高令牌输出和机架密度?
早期版本Mission Control的电源管理帮助组织负责任地管理复杂的功率问题,但它是被动的:先调度作业,后执行功率策略。虽然这是在平衡功率与性能方面迈出的一大步,但需要更动态的解决方案来大规模管理功率问题,尤其是在混合Slurm和Kubernetes环境中。这正是Mission Control 3.0版本的进化之处。
通过将域功率服务直接纳入Mission Control,功率成为一等调度原语,帮助组织根据其功率策略优化令牌生产。该功率管理服务支持在传统Slurm工作负载或由NVIDIA Run:ai编排的Kubernetes原生工作负载(已集成并包含在Mission Control栈中)上进行功率感知型工作负载放置。域功率服务还支持用于训练和推理的MAX-P和MAX-Q配置文件,并利用Mission Control与设施楼宇管理系统的集成,提供机架感知和拓扑感知的资源预留引导。
图3. NVIDIA Mission Control使用域功率服务进行全面的功率管理,持续监控和优化AI工厂的功率利用率。
在一个某机构运行MAX-Q配置文件的实例中,域功率服务使数据中心能够以85%的功率运行,仅损失7%的吞吐量。这是通过动态利用Mission Control集成的功率配置文件实现的。
这种集成使数据中心运维人员能够定义设施约束,AI从业者可以根据其工作负载优先级自信地选择性能模式或效率模式。治理保持集中化,而灵活性确保AI工厂可以针对每瓦特最佳性能和每美元最佳性能进行调整。
从仪表板到实时决策
除了提供动态功率管理的新服务外,Mission Control 3.0还通过与NVIDIA AIOps采集器与平台栈(NACPS)集成,增强了现有的异常检测能力,实现了AI驱动的预测性异常检测。NACPS的核心是AI集群模型,这是一个基于图的基础设施和工作负载表示,可创建跨GPU、NVIDIA NVLink纵向扩展、NVIDIA Spectrum-X以太网或NVIDIA Quantum InfiniBand东西向横向扩展以及NVIDIA BlueField DPU南北向网络的拓扑感知视图。该视图与集群模型中的作业拓扑相结合。
图4. NVIDIA AIOps采集器与平台栈(NACPS)作为NVIDIA Mission Control 3.0的一部分,提供AI驱动的预测性异常检测。它从AI工厂代理收集数据,并结合机器学习和关联分析,向AI工厂发回预测性工作流和修复措施。
NACPS结合了对指标的无监督在线机器学习、基于自然语言处理(NLP)的日志分析以检测未知问题、在标记事件上训练的有监督学习,以及确定性的基于规则的护栏。
遥测数据从GPU、交换机、主机、网卡(NIC)和调度器持续流入NACPS。事件和异常会在各层之间自动关联,实现上下文驱动的根因分析,同时减少告警噪音。该系统不再关注孤立的指标,而是理解各组件之间的关系。
当检测到异常时,Mission Control可以触发自动化的修复工作流,包括与NVIDIA Base Command Manager中的Slurm集成或针对Kubernetes工作负载的NVIDIA Run:ai协同工作的自动化硬件恢复。
该系统不仅监控基础设施,还能理解它并对其采取行动。运维人员不再需要追逐症状,他们获得了预见性。
另一种KPI:利用率 vs. 令牌生产
随着AI工厂运维的持续发展,运维团队需要考虑一种不同的KPI。传统数据中心针对利用率进行了优化,但AI工厂需要针对令牌生产进行优化。
为了使AI工厂针对令牌生产进行优化,企业需要考虑以下指标:每GPU和每机架的令牌产量,以及每瓦特和每兆瓦的令牌产量。每一个低效率都会直接降低总令牌输出。如果网络架构中的拥塞未被检测和缓解,或者单个机架意外超出其功率限制,或者计算节点在作业中途出现异常——AI工厂都会损失令牌生成和潜在收入。
然而,当AI工厂智能运行时,它能够将每一兆瓦精确地转化为令牌,从而最大化输出。
开始使用Mission Control
Mission Control 3.0旨在最大限度地减少低效率并提高AI工厂运维人员的令牌产量。通过跨领域关联遥测数据、智能编排功率、模块化架构以实现敏捷性,以及利用AI增强自主修复,它将基础设施从被动平台转变为性能优化的主动参与者。FINISHED