云原生周刊:AI 统一调度新进展与策略引擎大升级

7 阅读6分钟

云原生热点

Volcano v1.14 重磅发布!迈向 AI 统一调度新纪元

Volcano 是 K8s 上的云原生批处理/高性能调度系统,专为 AI 训练、大数据计算、MPI/HPC 等作业提供更强的调度能力(如成组调度、队列与公平共享、抢占等),并保持对 K8s 生态的原生兼容;它也是 CNCF 的孵化项目。

Volcano v1.14 近日正式发布,面向 AI 场景从离线训练扩展到在线推理与 Agent 智能体带来的新挑战,通过架构级创新在保留大规模批量计算优势的同时补齐低时延调度短板,向“训推、RL、Agent 全场景统一调度平台”迈进:本次重点升级为可扩展的多调度器统一调度架构,引入 Sharding Controller 的动态节点分片机制(Alpha),按集群实时状态为不同调度器动态计算候选节点池,并通过 NodeShard CRD 管理节点池。

k0s 1.35 发布:Windows 节点管理能力大幅提升,存储后端全面升级

k0s 是一个开源、轻量、CNCF 认证的 K8s 发行版,主打“零摩擦(Zero Friction)”部署体验:将集群所需核心组件打包为单一可执行文件,实现主机侧零依赖,安装与升级通常只需分发二进制并执行命令;同时支持从单节点到多控制面/多节点的生产级集群,适用于裸金属、边缘/IoT、私有云与公有云等环境。

k0s 1.35 近期发布,本次更新基于 K8s 1.35.1,延续轻量易用的定位,并带来多项务实增强。重点提升了 Windows 节点的管理能力(新增 k0s statusk0s reset),使混合 OS 集群的可维护性更接近 Linux;控制平面负载均衡器(CPLB)支持自定义模板,便于按需定制健康检查与监控。此外,存储后端从 rqlite 替换为 modernc.org/sqlite, 性能与可靠性进一步提升,并默认禁用 CGO 简化编译。

Kyverno 1.17 重磅更新:CEL 策略 GA,性能与标准化双升级

Kyverno 是一款为 K8s 打造的云原生策略引擎,以自定义资源方式定义策略,无需学习新语言即可实现集群资源的验证、变更、生成与清理。作为 CNCF 孵化项目,它秉持“策略即代码”理念,帮助平台团队保障集群的合规、安全与运维一致性。

Kyverno 1.17 正式发布,这是一个里程碑式版本,核心亮点是基于通用表达式语言(CEL)的新一代策略引擎正式生产就绪(GA)。此次更新将 CEL 策略类型(如 ValidatingPolicy、MutatingPolicy 等)提升至 v1 稳定版,并新增命名空间级的变更与生成策略,真正实现多租户自治管理。同时官方明确传统基于 JMESPath 的 Policy/ClusterPolicy API 已弃用,计划在 1.20 版本移除,建议用户新策略均采用 CEL 编写。

技术实践

文章推荐

迁移之前:你需要了解的 Ingress-NGINX 的五个令人惊讶的行为

本文介绍了在 K8s 将于 2026 年 3 月淘汰 Ingress-NGINX 的背景下,用户向 Gateway API 迁移前必须了解的五个该控制器的“意外”默认行为,包括:正则匹配默认是不区分大小写的前缀匹配、use-regex 注解会作用于同一主机的所有路径、rewrite-target 注解会隐含启用正则匹配、自动为缺少尾随斜杠的请求添加斜杠并重定向,以及URL 规范化处理;文章通过具体示例展示了这些行为如何导致看似正确的配置在迁移后引发服务中断,并给出了在 Gateway API 中通过显式配置(如正则表达式、重定向过滤器)来保留原有行为的等效方法。

K8s 引入节点就绪控制器以提高 Pod 调度可靠性

本文介绍了 K8s 新引入的节点就绪控制器(Node Readiness Controller)(目前为Alpha特性),旨在通过使API服务器对节点状态的视图更加准确,来解决因kubelet与API服务器之间短暂网络中断等瞬态故障导致的调度不一致问题(即Pod被调度到kubelet已标记为未就绪的节点上);该控制器通过专门的控制循环协调kubelet发出的就绪信号,确保调度决策基于最新节点状态,从而减少不必要的Pod驱逐、提升大规模或动态集群中工作负载的稳定性,并与taints、Pod Disruption Budgets及集群自动扩缩器等功能协同,降低运维复杂性和成本。

开源项目推荐

K9s

K9s 是一款面向 K8s 的终端可视化管理工具(TUI),通过持续监听集群资源变化,让你用键盘在命令行里快速浏览、筛选与排障(如查看日志、进入容器、端口转发、删除/重启资源等),减少频繁敲 kubectl 的上下文切换;同时支持配置文件定制界面与行为,并可扩展自定义视图/插件以适配团队工作流。

pi-mono

pi-mono 是 badlogic 的 AI Agent 工具包单仓库,包含面向编程的 CLI Agent、统一的多家 LLM 接入层,以及可复用的 TUI/Web UI 组件;还提供 Slack Bot 集成与用于部署/管理 vLLM 推理服务的工具(pods)。适合搭建团队内的 “编码助理 + 工具链 + 部署” 一体化方案。

roubao

roubao 是一款基于视觉-语言模型(VLM)的 Android 自动化助手:让模型“看懂”屏幕截图并规划步骤,自动完成点击、滑动、输入、打开应用等任务;支持多家模型服务/自定义端点,提供悬浮窗控制、执行记录与时间线日志,并加入人机接管、敏感操作确认等机制,适合移动端自动化与日常流程脚本化。

Superpowers

Superpowers 是 obra 开源的“编码代理工作流 + 可组合技能(skills)”框架,通过一套强约束的指令与技能库,让 Claude Code 等编程代理按流程完成需求澄清、设计、实现到复查与迭代,并支持插件/命令、hooks 集成与自动拉取更新的社区技能仓库,方便团队把最佳实践沉淀成可复用的 agent 能力。

关于KubeSphere

KubeSphere (kubesphere.io)是在 Kubernetes 之上构建的容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。