IBM、红帽、谷歌向CNCF捐赠大语言模型推理Kubernetes蓝图IBM、Red Hat 和 Google 将开源的

IBM、Red Hat 和 Google 将开源的 Kubernetes 大语言模型推理蓝图 llm-d 捐赠给 CNCF。llm-d 旨在使 LLM 推理可预测、可移植且云原生，通过解耦和智能路由，提升分布式推理效率，推动AI基础设施标准化。

译自：IBM, Red Hat, and Google just donated a Kubernetes blueprint for LLM inference to the CNCF

作者：Steven J. Vaughan-Nichols

Kubernetes 与人工智能的结合已在 llm‑d 中实现，这是一个可复制的 Kubernetes 蓝图，用于在任何云上、任何加速器上部署任何模型的推理堆栈。

周二在阿姆斯特丹举行的 KubeCon Europe 2026 上，IBM Research、Red Hat 和 Google Cloud 宣布将他们开源的分布式推理框架 llm‑d 捐赠给云原生计算基金会 (CNCF)，作为一个沙盒项目。

此举得到了创始合作者 NVIDIA 和 CoreWeave 以及 AMD、Cisco、Hugging Face、Intel、Lambda 和 Mistral AI 的支持，将 llm‑d 确立为一个社区治理的、可扩展的、供应商中立的大语言模型 (LLM) 推理蓝图。

llm‑d 于 2025 年推出，旨在使基础模型的规模化服务可预测、可移植且云原生。它将推理从即兴的、逐模型的挑战转变为一个可复制的、生产级的、基于 Kubernetes 的系统。Llm-d 由 Neural Magic 创建，该公司于 2025 年被 Red Hat 收购。IBM Research 杰出工程师 Carlos Costa 在 KubeCon 的主题演讲中表示，IBM 的目标是“使大规模模型服务成为一流的云原生工作负载”。

具体来说，llm-d 是一个开源的 Kubernetes 原生框架，用于将大语言模型 (LLM) 推理作为分布式、生产级工作负载运行。这在实践中意味着：

Llm-d 将 LLM 服务转变为一个分布式系统：它将推理分解为预填充（prefill）和解码（decode）阶段（解耦），并在不同的 pod 上运行它们。这意味着你可以独立地扩展和调整每个阶段。
它添加了一个 LLM 感知的路由和调度层。这是通过一个网关扩展实现的，该扩展根据 KV 缓存状态、pod 负载和硬件特性来路由请求，以提高延迟和吞吐量。
最后，它在 Kubernetes 之上提供了一个模块化堆栈，使用 vLLM 作为推理网关，以及相关组件，为您提供一个可重用的蓝图，适用于“任何模型、任何加速器、任何云”。

从概念上讲，vLLM 充当快速推理引擎，而 llm‑d 则提供了一个操作层，允许您通过智能调度、缓存感知路由和针对 LLM 流量而非通用 HTTP 工作负载进行调整的自动扩缩，在 GPU/TPU 集群上运行该引擎。

在新闻发布会上，前 Neural Magic 首席执行官、现任 Red Hat 高级副总裁兼 AI 首席技术官 Brian Stevens 表示：“我们做了很多工作来引入新的加速器。TPU、AMD、Nvidia 以及一大批其他加速器。我们真的希望看到它们有办法融入。因此，就像 Linux 一样，你可以运行任何硬件、任何应用程序，通过 llm-d，任何模型、任何加速器。”

这比旧的推理运行方式更快更便宜。Google Cloud 的早期测试显示，在代码补全等用例中，“首次生成 token 时间缩短了两倍”，从而实现了更灵敏的应用程序。这是因为传统的自动扩缩器、通用 API 和请求路由并未针对依赖高效 KV 缓存管理、预填充/解码编排和异构加速器的有状态推理工作负载而设计。

Llm‑d 正面解决了这些问题。它引入了前缀缓存感知路由和预填充/解码解耦，允许推理阶段独立扩缩。它支持跨 GPU、CPU 和存储层级的层次化缓存卸载，在不超载加速器内存的情况下启用更大的上下文窗口。

其流量和硬件感知自动扩缩器动态适应工作负载模式，而非依赖基本的利用率指标。它还旨在与新兴的 Kubernetes API 协同工作，例如 Gateway API Inference Extension (GAIE) 和 LeaderWorkerSet (LWS)。这三者共同旨在使分布式推理成为一流的 Kubernetes 工作负载。

该项目的贡献者将 llm‑d 描述为组织从实验转向生产的“一条明亮之路”。Carlos Costa 说：“我们为您测试过。我们对其进行了基准测试。我们经历了痛苦。”该框架提供可重现的基准、经过验证的部署模式，以及与 Nvidia GPU 到 Google TPU 再到 AMD 和 Intel 硬件等主要加速器系列的兼容性。

IBM Research 人工智能平台副总裁 Priya Nagpurkar 在 llm-d 主题演讲中强调，推理现在需要 Kubernetes 为微服务带来的相同操作成熟度。“您需要 Kubernetes 为上一个时代提供的规模、分布式和可靠性，同时要认识到这是一种非常不同的工作负载。”

通过将 llm‑d 贡献给 CNCF，IBM 及其合作伙伴正在押注 AI 推理很快将像 Prometheus 或 Envoy 一样，成为云原生堆栈的基础。

IBM 认为此次捐赠对于分布式推理的部署和管理标准化至关重要。Carlos Costa 说：“CNCF 正在成为 AI 基础设施的家园。在这里，通用模式、API 和治理汇聚一堂，以便每个人都可以在相同的‘剧本’上进行构建。”

展望未来，llm-d 的下一个开发周期将重点关注扩展 llm‑d 在多模态工作负载、Hugging Face 多 LoRA 优化方面的能力，以及与 vLLM 的更深入集成。具体来说，Mistral AI 已经贡献代码，以推动解耦服务方面的开放标准。

IBM Research 将继续探索推理和训练的交叉点，包括强化学习和自优化 AI 基础设施。正如 Carlos Costa 所说，“创建一个共同的基础堆栈可以让生态系统专注于推动 AI 发展，而不是重复构建基础。”CNCF 作为其新家，llm‑d 有望成为云原生 AI 时代的基石。