SkyPilot：AI算力统一管理工具SkyPilot：AI算力统一管理工具 skypilot-org/skypilot

SkyPilot：AI算力统一管理工具

skypilot-org/skypilot 是一款用于在任意AI基础设施上运行、管理和扩展AI工作负载的系统，目前在GitHub斩获9954个Star。

正文顶部截图

SkyPilot面向AI团队提供简单接口，支持在任意基础设施上运行任务。面向基础设施团队提供统一控制平面，实现AI算力的调度、扩展和编排。

SkyPilot适配多种基础设施，包括Kubernetes、Slurm、AWS、GCP、Azure等20+云服务，用户通过统一界面即可使用预留GPU、Kubernetes集群、Slurm集群等资源。工具支持GPU、TPU、CPU的灵活 provisioning，具备智能故障转移能力，同时支持团队部署和资源共享。

README区域截图

SkyPilot可以提高GPU集群利用率，内置自动停止功能，可自动清理闲置资源。支持工作负载装箱调度，智能调度器会自动将任务分配到最可用的基础设施上。现有GPU、TPU、CPU工作负载无需修改代码即可接入使用。

工具提供统一的任务定义格式，支持YAML或Python API。用户只需在任务文件中指定资源需求、待同步数据、初始化命令和任务命令，即可在任意可用基础设施上启动任务，避免厂商锁定，方便跨平台迁移。

2026年4月项目推出GPU Compass功能，用户可通过统一面板浏览、对比不同GPU云的定价，直接跨平台启动实例。同期发布的Research-Driven Agents功能，可让代理先读取arxiv论文再编写代码，曾在3小时内完成5个llama.cpp内核融合，实现flash attention速度提升15%，总成本约29美元。

2026年3月发布的v0.12版本新增Slurm支持、RL任务组、代理技能、池自动扩展等功能，数据挂载速度提升7倍。目前已有Shopify等企业将全部AI训练工作负载运行在SkyPilot上。

安装方式简单，可通过uv或pip安装，支持20+云服务的接入选项。针对AI代理场景，SkyPilot提供专门的Skill组件，支持Claude Code、Codex等代理直接调用算力管理功能。

SkyPilot内置多集群、多云支持能力，用户可以将所有集群纳入同一控制平面管理，使用一致的接口对接不同服务提供商。针对Kubernetes集群，工具提供类Slurm的使用体验，同时保留云原生的稳定性，支持SSH连接pod、代码同步、IDE连接等本地开发体验，还具备gang调度、多集群管理、自动扩展等能力。

项目提供丰富的可运行示例，覆盖模型训练、推理服务、AI应用开发等场景，支持Verl、Llama 4、vLLM、SGLang等主流框架和模型。用户可参考官方文档快速上手，也可查看案例研究了解企业落地实践。

开源地址：github.com/skypilot-or…