AI推理服务化调度框架对比分析(一)

9 阅读2分钟

1 为什么需要推理服务化调度框架

当前大模型如DeepSeek V4、GLM等都是MOE大模型,参数量权重比较大,在实际生产业务部署中,为了提升性能,得到较低的推理时延,得到较好的推理业务体验。大多采取PD分离部署,并且在生产环境中往往采用集群的方式进行部署。推理服务号调度框架能够提供如下的能力,降低推理服务部署难度,提升推理服务的可靠性及易用性:

  • 提供PD分离部署能力;
  • 提供一些路由策略,提升推理性能,例如:prefix-cache策略;
  • 提供负载感知,静态或者动态调整PD配比的能力;
  • 提供故障隔离及故障恢复的能力;

2 当前业界都有哪些调度框架

各大厂家均有自己的服务化框架,其中,NVIDIA有提供Dynamo调度框架,字节有AIBrix,llm-d,京东有xllm-service,KServe,Ray Serve等。其中,Dynamo和AIBrix及llm-d及xllm-service支持PD分离部署。KServe 原名叫KFServing,是Kubernetes 原生的云原生模型服务框架;Ray Serve是分布式计算框架 Ray 的推理服务层,通用型任务调度。是用 Python 代码定义复杂服务流水线。下面重点介绍下NVIDIA的Dynamo和字节的AIBrix及京东的xllm-service。

2.1 AIBrix

AIBrix 是一项开源计划,旨在提供构建可扩展生成式人工智能推理基础设施所需的核心构建模块。AIBrix 提供了一个云原生解决方案,针对大语言模型推理的部署、管理和扩展进行了优化,专门针对企业需求进行了定制。官方文档链接:aibrix.readthedocs.io/latest/