openFuyao v26.03 社区发行版正式上线! InferNex 项目 AI 推理能力全面升级,新增弹性伸缩与决策系统,优化分布式 KVCache 管理能力,平均首 token 时延降低 30%,端到端时延降低 10%。同时围绕昇腾 NPU DRA 适配、超节点生态使能、机密容器等完成系统性升级。本次更新将助力用户进一步释放有效算力潜能,全方位驱动 AI 推理业务运维稳定性与部署效能的提升。
1. InferNex:AI 推理能力全面升级
在本次版本中,SIG-ai-inference 打造的 InferNex 项目推出首个完整包含智能路由、弹性伸缩与决策系统、可观测、分布式 KVCache 管理以及端到端一键式部署能力的方案,平均首 token 时延降低 30%,端到端时延降低 10%。具体性能数据详见表 1:
表 1 InferNex 性能表现
| 路由策略 | 集群场景 | E2EL 收益 (avg) | TTFT 收益 (avg) |
|---|---|---|---|
| aggregate KVCache aware | 同机集群 | 9.15% | 37.35% |
| PD KVCache aware | 同机集群 | 22.08% | 27.73% |
| PD KVCache aware | 跨机集群 | 17.31% | 22.03% |
核心组件升级
-
Elastic Scaler
完整具备分布式推理作业弹性伸缩资源管理和决策能力,开放决策算法接入并内置潮汐算法、支持指标 & 事件驱动、from/to 0 弹性伸缩能力;尤其支持成组和组内资源根据用户定义策略伸缩,解决分布式推理 PD 分离场景下按 PD 组、固定配比优雅伸缩的诉求。 -
Hermes-router
解决 KVCache aware、分桶策略的兼容性问题,同时将状态感知粒度从服务级进一步细化至 Pod 级,提升路由策略的性能表现。 -
分布式 KVCache
提供分布式 KVCache 池化存储与跨实例的 KVCache 高速传输,提升缓存复用效率;构建热点缓存能力,实现固定内存总量占用下推理性能提升。相关特性与架构优化已合入上游 Mooncake 社区。 -
Eagle Eye
构建面向 AI 推理场景的系统性可观测体系,新增 A2/A3 代际主机侧 & 卡侧 RDMA、主机侧 PCIe 带宽等网络静态指标、过载降频等部分设备亚健康指标。 -
推理后端
支持基于 vLLM / vLLM-Ascend 的云原生场景推理引擎一键部署。
2. 安装部署:多维度能力增强
SIG-installation 在 v26.03 版本中增强了安装部署能力:
- 安装部署结构优化:引导节点镜像取自自身 registry;管理、业务集群新增健康检查接口;安装部署组件支持从多制品仓库拉取镜像。
- BKECluster CR 拆分:拆分为 BKENode 和 BKECluster。
- 用户功能增强:addons 支持 chart 形态插件安装;支持创建节点前后置操作。
3. DRA 插件:完成昇腾 NPU 深度适配
基于 Kubernetes 原生 DRA 架构完成昇腾 NPU 设备深度适配:
- 支持基于 NUMA 节点、芯片型号、拓扑组等元信息的 CEL 表达式设备筛选。
- 支持 ResourceClaim / ResourceClaimTemplate 资源申请。
- 通过 CDI 将设备注入容器,实现精细化资源调度。
4. 超节点容器网络设备插件:降低时延
ub-network-device-plugin 是基于 Kubernetes 标准规范开发的容器网络设备插件,适配灵衢 URMA 设备。借助 URMA 特性,通信时延最低为 1.7μs ~ 2.5μs,较 TCP 协议提升 90%,为高性能计算、实时通信等场景提供优异的网络性能支撑。
5. 超节点内存池化:提升利用率及处理效率
-
内存借用
基于 UB 内存池化机制,裸机容器场景下节点或 NUMA 的内存使用率达到预设阈值时触发内存借用,将部分内存压力分担到借来的内存上。适用于单节点部署大量 Pod 或容器的场景,通过内存超分和借用机制提升节点内存利用率,降低硬件成本。 -
内存共享
支持通过内存池化能力,将内存块在 UBS Server 集群内导入导出,实现在裸机上跨节点及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与 QoS。适用于需要跨节点共享大内存数据集的场景(如内存数据库、大数据分析),可避免数据复制,提升处理效率。
6. 机密容器:构筑安全隔离
基于 鲲鹏 TEE 技术,通过 K8s + containerd + Kata + QEMU + KVM + CoCo 的整套软件栈进行构建,实现机密容器部署,提供类似传统虚拟机的强隔离,避免不同容器之间的安全问题。