SkyPilot:AI算力统一管理工具
skypilot-org/skypilot 是一款用于在任意AI基础设施上运行、管理和扩展AI工作负载的系统,目前在GitHub斩获9954个Star。
SkyPilot面向AI团队提供简单接口,支持在任意基础设施上运行任务。面向基础设施团队提供统一控制平面,实现AI算力的调度、扩展和编排。
SkyPilot适配多种基础设施,包括Kubernetes、Slurm、AWS、GCP、Azure等20+云服务,用户通过统一界面即可使用预留GPU、Kubernetes集群、Slurm集群等资源。工具支持GPU、TPU、CPU的灵活 provisioning,具备智能故障转移能力,同时支持团队部署和资源共享。
SkyPilot可以提高GPU集群利用率,内置自动停止功能,可自动清理闲置资源。支持工作负载装箱调度,智能调度器会自动将任务分配到最可用的基础设施上。现有GPU、TPU、CPU工作负载无需修改代码即可接入使用。
工具提供统一的任务定义格式,支持YAML或Python API。用户只需在任务文件中指定资源需求、待同步数据、初始化命令和任务命令,即可在任意可用基础设施上启动任务,避免厂商锁定,方便跨平台迁移。
2026年4月项目推出GPU Compass功能,用户可通过统一面板浏览、对比不同GPU云的定价,直接跨平台启动实例。同期发布的Research-Driven Agents功能,可让代理先读取arxiv论文再编写代码,曾在3小时内完成5个llama.cpp内核融合,实现flash attention速度提升15%,总成本约29美元。
2026年3月发布的v0.12版本新增Slurm支持、RL任务组、代理技能、池自动扩展等功能,数据挂载速度提升7倍。目前已有Shopify等企业将全部AI训练工作负载运行在SkyPilot上。
安装方式简单,可通过uv或pip安装,支持20+云服务的接入选项。针对AI代理场景,SkyPilot提供专门的Skill组件,支持Claude Code、Codex等代理直接调用算力管理功能。
SkyPilot内置多集群、多云支持能力,用户可以将所有集群纳入同一控制平面管理,使用一致的接口对接不同服务提供商。针对Kubernetes集群,工具提供类Slurm的使用体验,同时保留云原生的稳定性,支持SSH连接pod、代码同步、IDE连接等本地开发体验,还具备gang调度、多集群管理、自动扩展等能力。
项目提供丰富的可运行示例,覆盖模型训练、推理服务、AI应用开发等场景,支持Verl、Llama 4、vLLM、SGLang等主流框架和模型。用户可参考官方文档快速上手,也可查看案例研究了解企业落地实践。