2025年K8s用户对AI的真实看法

116 阅读7分钟

2025年Kubernetes生产环境现状报告显示,AI成为Kubernetes的新重心,推动边缘Kubernetes发展,并有望作为成本控制策略。90%的受访者预计Kubernetes上AI工作负载将增长。AI是集群放置的第三大驱动因素。

译自:What K8s Users Really Think About AI in 2025

作者:Ant Newman

我已经连续四个春天都在研究大量的研究数据电子表格,并梳理从业者的访谈记录,为我们年度的“Kubernetes生产环境现状”报告做准备。

每一年都有一个标志性的惊喜:2022年是技能差距的深度;2023年是DevEx的切肤之痛;去年则是云原生领域中风险和波动性的影响。

2025年最明显的标题是AI。不是炒作周期的猜测,而是真实的工作负载、真实的预算,以及——至关重要的是——真实的运维难题。

以下是对今年455名受访者调查中关于AI发现的引导性介绍。(这只是我们在完整的44页报告中探讨的五个主题之一,但却是大家第一个问到的。)

1. AI 成为 Kubernetes 的新重心

一位受访者,美国医疗保健行业的云工程经理,称 AI 为“现代淘金热”,领导层“将公司的未来增长押注于大规模采用 AI”。

当然,从 IT 的角度来看,当我们谈论企业拥抱 AI 时,我们真正谈论的是新的应用程序工作负载。而工作负载必须在某个地方运行。

整整 90% 的受访者预计,未来 12 个月内他们在 Kubernetes 上运行的 AI 和机器学习 (ML) 工作负载数量将会增长——这是整个调查中最强劲的增长信号。

AI 工作负载的需求也在改变组织的环境策略——他们选择构建和运行集群的位置。

AI 是集群放置的第三大驱动因素(仅次于多云策略和本地环境恢复的需求)。事实上,28% 的人表示他们已经将集群放置在专门的 GPU 云中。

然而,热情并非普遍存在。一位公共部门的 CIO 警告说,让算法对核心业务流程进行运营控制(在他的例子中,红绿灯变绿或变红)“对于交通运输机构来说感觉很冒险”。 最重要的结论是:高管看到收入; 运营人员看到延迟、成本和合规性。

2. 边缘 Kubernetes 并驾齐驱

我们一直认为,对于许多工作负载来说,AI 的天然归宿是在边缘,在那里,实时推理(例如计算机视觉)可以紧邻它需要处理的数据,并提供实时的、低延迟的决策。正如一位受访者所说:

“需要实时决策的 AI 推理工作负载——想想自动驾驶汽车——属于边缘,尽可能靠近数据源,因为毫秒级的延迟是不可谈判的。”

今年,来自 AI 的推动首次使边缘 Kubernetes 进入多数生产用途。现在,一半的企业都在边缘运行生产集群,高于去年的 38%。在这些边缘采用者中,81% 的人预计他们的足迹将在 2025 年增长。

当我们询问 2025 年边缘 Kubernetes 的难点是什么时,答案发生了巨大变化。 传统的担忧,如执行 Day 2 运营和现场工程挑战,消失了; 相反,我们看到了围绕设备性能、连接性和模型管理的痛点。

41% 的人报告说管理 AI 工作负载存在问题,高于去年的 25%。

我们逐年看到用户在使用边缘 K8s 时面临的最大挑战的变化。今年,一切都与处理强大的 AI 工作负载有关。(来源:Spectro Cloud。)

一位美国制造商总结了新的现实:

“性能确实是我认为 AI 和 Kubernetes 最大的问题。对于 AI 来说,它与正常的 K8s 工作负载完全不同。LLM [大型语言模型] 需要强大的马力……我们花了很多时间调整容器设置和节点配置文件,以达到我们的速度目标。”

换句话说,可能曾经专注于轻量级物联网 (IoT) 遥测的边缘用例现在与计算机视觉管道和实时推理有关,这些推理会融化较弱的硬件并需要定期更新。

3. AI 作为一种成本控制策略——真的

Kubernetes 的总体拥有成本 (TCO) 正在快速上升(88% 的受访者表示他们的账单在过去 12 个月内上涨了),并且成本是他们今年感受到的最大挑战。

有了新的 AI 工作负载,以及在多个不同云和其他环境中运行的更多集群,支出很容易失控。

每年,我们都会询问我们的受访者认为在 K8s 运营中提高效率的最大机会是什么。今年,AI 是大多数人认为有效的唯一效率杠杆。

一半——51%——选择“使用 AI 来改进运营”作为提高 K8s 效率的首要机会,超过了自动扩展和云支出优化。

AI 已成为推动 K8s 运营效率的主要机会。

AI 已成为推动 K8s 运营效率的主要机会。(来源:Spectro Cloud。)

他们告诉我们这不仅仅是异想天开,而是他们正在积极追求的东西。 令人惊讶的是,92% 的人表示他们已经在投资下一代 AI 驱动的优化工具。

我们的一些受访者兴高采烈地阐述了他们如何将 AI 助手视为一个机会,可以调整集群的大小以消除超支,或自动排除故障和修复问题。

“最大的挑战是应用程序团队认为他们知道自己想要什么,但我们最终得到的集群并没有得到充分利用。AI 绝对可以提供帮助。 使用自然语言提示,您可以问,‘我们应该如何重新配置和优化它?’ AI 甚至可以生成 YAML 清单:描述您的应用程序——多少个集群、节点、大小——然后它会返回建议。 您可以与它聊天并获得所需的信息。 这能否像今天的 AI 编码助手一样成为 Kubernetes 助手? 是的,绝对可以——100% 可以。”

仍然存在怀疑论者。 一位英国电信公司主管表示,“该平台有太多变量位于系统控制之外”,因此助手不可信。 如果 AI 开始关闭工单,一位美国公共部门的 CIO 担心工会强烈反对,而不是代码质量。 尽管如此,支出趋势很明显:AI 不仅仅是一种工作负载; 它是解决 Kubernetes 价格冲击的希望解药。

那又怎样?

虽然“AI”可能是 IT 领域最大的流行语,但它并不是一回事。

首先,它是这场“淘金热”中新应用程序需求的驱动力。 并且每个工作负载都需要正确的基础设施,无论是 GPU 云还是边缘盒子。 您传统的环境和硬件可能不够。 AI 工作负载还引入了新的管理要求,主要是需要每周移动大型模型的新版本。

其次,它是一种成本压力。 在新地方的新应用程序意味着更多的硬件、更多的软件,最重要的是,更多的人力来管理基础设施资产。 成本一直是运营 Kubernetes 的一个问题,现在变得更加困难。

第三,AI 有望成为运营方面的灵丹妙药。 将 AI 仙尘洒入 FinOps 工具或管理平台中的助手是解决在不同环境中大规模管理集群的挑战和成本的希望解决方案。 如果我们可以让 AI 处理 YAML 地狱、治愈我们的过度配置问题并调查最深奥的根本原因,那将是一件美妙的事情。 现实会达到预期吗? 嗯,历史告诉我们,Kubernetes 的复杂性和成本并不容易解决。 时间会证明一切。

继续探索

我只介绍了我们“2025 Kubernetes 生产环境现状”研究中的一小部分数据。 完整的报告包含 40 多页的数据、图表和访谈故事,涵盖了采用基准、运营最佳实践以及 AI 和 KubeVirt 等热门话题。

获取您的“2025 Kubernetes 生产环境现状”报告,或注册并加入我们的直播网络研讨会,参与 9 月 11 日的重点发现之旅。 到时见——并祝 Kubernetes 这个不断发展的世界在新的一年里充满惊喜。