灵燕智能体平台模型框架与部署架构

190 阅读5分钟

一、平台整体架构概述

飞速灵燕智能体平台采用云原生架构,基于Kubernetes(k8s)集群统一管理服务,支持动态横向扩容。核心模块包括:  1️⃣模型服务层:启动后自动注册至模型网关,由网关统一分发请求;  2️⃣弹性扩缩容:根据流量实时调整实例数量,保障服务稳定性;  3️⃣全流程可视化:用户请求通过网关路由至最优实例,部署流程清晰可控。  在飞速智能体的整体架构中,智能体服务借助 Kubernetes(k8s)集群实现统一管理,支持动态横向扩容,以此保障服务的高可用性与弹性伸缩能力。模型服务启动后,能够自动注册至模型网关,而模型网关则基于统一的分发策略,将用户请求路由至各个模型服务实例。模型服务本身同样支持动态扩容,确保在不同负载场景下均能保持高效响应。在用户请求与智能体部署的架构设计中,模型服务与 k8s 集群的交互逻辑至关重要。通过模型网关的统一调度,用户请求得以高效分发至模型服务实例,而模型服务的动态扩容能力则进一步增强了系统的稳定性与可扩展性。

图1.webp

二、多模型管理框架(MMF)设计

在 AIGC(AI 生成内容)应用的探索与生产落地过程中,直接对接模型服务是不可避免的环节。然而,当前大模型的推理部署尚未形成统一标准,新模型与新训练方法的不断涌现,导致开发者需投入大量时间适配底层模型环境,这在一定程度上制约了 AIGC 应用的创新与落地效率。为应对上述挑战,我们设计了基于服务化的多模型管理框架(MMF),旨在简化模型适配流程,提升部署效率与性能。MMF 由模型推理层与模型部署层构成:模型推理层集成主流推理框架(如 vLLM、llama.cpp、FastChat),提供底层推理能力;模型部署层则对接推理层,向上提供统一的模型服务接口,支持多模型实例、多推理框架、多云环境部署及自动扩缩容。

☑️MMF的核心功能包括

多模型与多推理框架支持:大模型领域的快速发展催生了新模型与新推理方法的不断涌现。MMF 直接支持FastChat、vLLM、llama.cpp 等框架,并兼容代理模型(如 OpenAI、通义、百川等)。用户可根据具体需求选择合适的框架:若对推理速度与并发能力有高要求,可选择 vLLM;若需在 CPU 或 Mac M1/M2 芯片上实现高效推理,则 llama.cpp 是更优选择。

扩展性与稳定性:MMF 借鉴了 Kubernetes、Istio 等云原生技术,采用分层架构设计。其中,Model Worker 负责对接推理框架,支持大语言模型、Embedding 模型等多种类型,并适配物理机、Kubernetes、云环境等不同部署场景;Model Controller 则管理元数据,支持动态扩展,以满足不同部署环境与管控需求。此外,MMF 引入了模型注册中心,用于存储模型实例元数据,并复用现有微服务注册中心(如 Nacos、Eureka),从而实现高可用性。

框架性能:MMF 致力于避免成为性能瓶颈。为此,我们关注减少封装以降低链路复杂度,便于问题排查;支持多实例弹性扩容以应对不同负载场景;并采用高性能通信设计,确保模型服务层提供异步接口,兼容推理框架的同步/异步能力。

可管理性:通过 API 或命令行工具,用户可对模型实例进行上线、下线、重启、Debug 等管理操作。同时,考虑到支持的模型和推理框架众多,且不同环境的部署依赖复杂,MMF 提供了基于容器化的快速部署脚本,以降低部署门槛。

图2.webp

轻量化交付

鉴于平台所支持的模型和推理框架种类繁多,且不同运行环境下的部署依赖情况复杂多样,这无疑给开发者和运维人员带来了不小的挑战。为了有效解决这一问题,平台特别提供了基于容器化技术的快速部署脚本。借助容器化技术的优势,该脚本能够屏蔽底层环境的差异,实现一键式、标准化的部署流程,极大地简化了部署工作,提高了部署效率,降低了出错风险

./run_llm_worker.sh -n qwen2-7b-instruct

图3.webp

三、云原生架构与 MMF 性能优化

在云原生架构的扩展性与稳定性方面,云原生技术已成功解决海量计算资源的管控、调度与利用问题,释放了计算价值。在大模型推理中,MMF 借鉴 Kubernetes 的设计理念,通过分层架构实现了 Model Worker 的动态扩展Model Controller 的高可用管理以及模型注册中心的统一注册与发现

在框架性能优化方面,为避免框架成为性能瓶颈,MMF 特别关注减少封装、多实例弹性扩容以及高性能通信设计。通过减少不必要的封装层,降低链路复杂度,便于快速定位与解决问题;通过支持多实例弹性扩容,确保系统在不同负载下均能保持高效响应;通过采用高性能通信设计,确保模型服务层与推理框架之间的接口兼容性与高效性

综上所述,飞速 MMF 框架通过服务化设计,简化了多模型、多推理框架的适配流程,提供了高性能、可扩展、易管理的模型服务能力。这一框架不仅有助于降低 AIGC 应用的开发门槛,还将加速 AIGC 技术的创新与落地进程,为智能时代的到来奠定坚实基础。