GTC 2026 演讲精华 | GMI Cloud 深度解析:基于 Blackwell 架构打造世界级 AI 推理引擎

0 阅读9分钟

摘要

上周,NVIDIA GTC 2026 大会在美国圣何塞盛大举行。在这场全球 AI 基础设施领域规格最高的年度盛会上,GMI Cloud 工程 VP Yujing Qian 受邀发表主题演讲,深度拆解了当前 AI 推理规模化落地的核心行业痛点,并全面展示了如何通过软硬协同,在 NVIDIA Blackwell 架构上打造世界级的推理引擎 。本文为本次演讲内容的核心精华整理。

美国当地时间 3 月 16 日,英伟达创始人、CEO 黄仁勋在 GTC 2026 开幕主题演讲中提出,AI 正在开启人类历史上规模最大的基础设施建设浪潮,Token 已成为全新的商品,推理则是 AI Factory的核心负载,整个 AI 产业的竞争已经从单一芯片比拼,迈向了整机系统级的 AI Factory级基础设施竞争。在这样的行业背景下,作为全球七大 Reference Platform NVIDIA Cloud Partner 之一,GMI Cloud 带来了针对 Blackwell 架构推理落地的全维度解决方案分享,直击行业在规模化推理中面临的利用率、成本、延迟与运维四大核心痛点。

wxv_4441844561052794888

01

算力利用率缺口:

Blackwell 架构规模化落地的核心痛点



Blackwell 架构自发布至今已近两年,2026 年正式进入技术成熟、大规模落地的阶段,其相比 Hopper 架构实现了 4 倍 TFLOP 算力提升,但实际生产中,机架级部署的 Blackwell 硬件仍存在30%-50% 的算力利用率缺口,这一问题也曾出现在 Hopper 架构的落地初期 —— 硬件技术的快速迭代,带来了软件栈适配的滞后性。

图片

利用率缺口的核心根源,是 AI 开发领域正迎来面向自动感知调度的技术范式转变。过去五年,AI 软件均围绕单一、孤立的计算设备优化,调度器默认计算本地化、通信低速率,而 Blackwell 架构的核心突破在于机架级的系统设计:NVIDIA GB300/GB200 是典型的机架级系统,集成了高达 130TB/s 的第五代 NVLink 高速互联网络,这一硬件特性与芯片本身同等重要,传统为单设备优化的软件栈,无法发挥其算力优势。

图片

而在实际规模化部署中,这一缺口的成本代价极高 ——GMI Cloud 在台湾建设的第一座AI工厂已运行着超过 7,000 个 GPU,拥有 16 兆瓦的电力容量。在该规模下,架构低效将直接转化为每月七位数的成本损耗。同时,传统多 GPU 推理 / 训练的网络配置(如 NCCL 测试、Infiniband 400G 互联)存在大量工程化瓶颈,也进一步放大了硬件利用率的问题。

图片

02

核心突破:

自动感知调度,适配 Blackwell 的软件革新

自动感知调度是开发者采用 Blackwell 平台时最需要关注的核心技术,也是解决软硬件适配缺口的关键,这一调度技术针对 Blackwell 平台的机架级特性打造,相比传统的 K8s、Slurm 等调度方式,实现了三大核心突破,同时为开发者带来 DevOps 层面的零运维负担:

· 即时弹性扩缩容,远超传统调度效率:

传统调度方式实现算力扩缩容,需完成镜像缓存、存储挂载等操作,耗时数十秒至数分钟,而基于 NVL72 系统的自动感知调度,通过正确的系统设置,可实现量级的扩缩容速度提升,算力资源随业务流量实时调度,真正实现 Serverless 无预留部署;

· 机架级部署实现稳定低延迟:

传统分布式推理系统需设置入口、在负载均衡器级别完成流量与会话路由,延迟较高,而 Blackwell 平台的所有计算与通信均在单个机架内完成,消除了跨节点的通信延迟,为用户端产品提供稳定的低延迟体验;

· 提升单位经济效率,实现 4 倍及以上 Token 吞吐量:

Blackwell 平台的盈利单位经济模型已实现大幅优化,通过对平台的精准量化调优,推理任务的Token 吞吐量可实现 4 倍及以上提升,这一性能提升在各类基准测试平台中均可清晰验证,Blackwell 平台的吞吐量显著优于 Hopper 架构;

· DevOps 层面零运维负担:

GMI Cloud 已完成自动感知调度的全栈式优化,开发者无需投入精力进行基础设施管理、软件栈调优,无需关注暖池维护、集群监控等 DevOps 相关工作,只需专注于模型研发,由 GMI Cloud 提供全流程的技术支撑。

图片

而在实际规模化部署中,这一缺口的成本代价极高 ——GMI Cloud 在台湾建设的第一座 AI Factory 已运行着超过 7,000 个 GPU,拥有 16 兆瓦的电力容量。在该规模下,架构低效将直接转化为每月七位数的成本损耗。同时,传统多 GPU 推理 / 训练的网络配置(如 NCCL 测试、Infiniband 400G 互联)存在大量工程化瓶颈,也进一步放大了硬件利用率的问题。

03

技术基石:

Blackwell GB200 NVL72 的机架级硬件能力

作为 Blackwell 平台的核心硬件载体,NVL72 系统在本次演讲中被重点提及,Yujing 结合实际基准测试结果,介绍了该系统相比传统独立服务器的核心优势,也是其能支撑感知互联调度落地的硬件基础:

· 超高密度

单域部署 72 张 Blackwell GPU,打造单一 NVLink 域,实现大规模模型并行计算,搭配直液冷散热技术保障硬件稳定运行;

· 高可靠带宽

单 GPU 提供 1.8TB/s 可靠基线吞吐量(非理论峰值),基于这一能力,单 NVL72 机架级系统的吞吐量可突破200 万 Tokens / 秒,实现推理算力的规模化释放;

· 硬件级算力优化

搭载专为推理设计的 64KB 张量内存(TMEM)、第五代 Tensor Core、张量内存加速器(TMA)等,实现计算与内存的高效协同。

图片

Yujing 还提到,NVL72 系统相比传统的独立 GPU 服务器,在多 GPU 协同的推理场景中效率提升尤为显著,可彻底消除传统分布式部署中的跨节点网络瓶颈,当模型与算力需求处于 “可放入单个服务器机架” 的合理范围时,NVL72 系统能同时实现经济效益与算力效率的最大化,也是当前 Blackwell 平台落地的最佳场景。本次 GTC 大会现场也设置了 NVL72 系统的机架演示,其完成布线后的硬件架构直观展现了 Blackwell 平台的机架级特性,为开发者提供了更具象的技术认知。

04

GMI Cloud MaaS 平台:

一站式 AI 推理的未来



为了让全球 AI 开发者真正落地 Blackwell 架构的推理能力,GMI Cloud 正式推出GMI Cloud MaaS 平台(访问地址:maas.gmicloud.ai),依托自动高速互联感知调度技术与 NVL72 系统的专属硬件支撑,实现了DevOps 层面零运维负担的 Blackwell 算力服务,核心能力涵盖四大维度:

· 单 API 对接全模型,消除厂商碎片化

一个 API 对接全球主流的闭源 / 开源大语言模型,以及图像、视频、音频等多模态模型,无需对接多个厂商,消除多合同复杂度,大幅降低模型接入的研发成本。

· 自带模型部署,适配定制化需求

支持开发者在 Blackwell 基础设施上部署自有定制模型,实现全模态覆盖,同时提供完善的部署、版本管理与 SLA 保障,适配开发者持续迭代的业务负载需求,让定制化模型也能享受 Blackwell 的算力优势。

· 低于市场的定价,由设计实现成本优化

依托推理引擎的高利用率优化(自动感知调度、KV 缓存复用等),GMI Cloud 将硬件效率的提升直接转化为定价优势,实现低于市场水平的推理服务定价,让开发者享受到规模化算力的成本红利。

· 零基础设施负担,全托管式服务

GMI Cloud 全流程托管所有模型端点的运行与维护,开发者无需管理 GPU 暖池、服务器集群、网络配置等基础设施,只需专注于 AI 产品的打造,由 GMI Cloud 负责整个技术栈的稳定运行。

图片

05

生态愿景:

不止于基础设施提供商,更要做 AI 开发者的创新伙伴

在演讲的最后,Yujing 分享了 GMI Cloud 的长期生态愿景。作为全球七大 Reference Platform NVIDIA Cloud Partner 之一,已完成 Blackwell 平台的全栈式适配,将持续为开发者提供 GPU 算力、模型托管、技术优化的全流程服务,正成为开发者解锁新一代算力平台的核心桥梁,推动 AI 推理技术向更高性能、更低成本、更易落地的方向发展。

图片

关于 GMI Cloud

由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,是全球七大 Reference Platform NVIDIA Cloud Partner 之一,拥有遍布全球的数据中心,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。

GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 GB200、GB300 以及未来所有全新上线的高性能芯片),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”、“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。

作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。