技术详解 | 众智FlagOS1.6：一套系统，打通多框架与多芯片上下适配当前，芯片架构正向3D堆叠、存算一体等新形态发

当前，芯片架构正向3D堆叠、存算一体等新形态发展，各类异构超节点持续涌现，导致算力基础设施日趋复杂与碎片化。与此同时，大模型、具身智能、AI智能体等新范式加速迭代，催生出复杂的新型算子需求和混合计算模式，进一步加剧了开发验证的周期与跨平台调优的难度。这都对系统软件栈的兼容性、开发效率及全栈支持能力提出了更高要求。

为破解AI芯片生态割裂，算力迁移成本高昂的行业困境，2026年1月，北京智源人工智能研究院联合学术界与产业界伙伴，共同推出了面向多种AI芯片的统一、开源系统软件栈——众智FlagOS的1.6版本。

本次FlagOS1.6版本来自中科院计算所、中科加禾、先进编译实验室、澎峰科技、安谋科技、北京大学、基流科技、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、摩尔线程、沐曦科技、清微智能、天数智芯、中国矿业大学（北京）、移动研究院等超过20个团队，全球600多位开源社区开发者的共同贡献。

FlagOS1.6在多芯片支撑框架、统一编译器、算子库、算子自动生成工具等方面实现系统性升级，显著提升模型跨芯片兼容能力，大幅优化开发流程效率，并全面深化对具身智能的全栈支持，进一步实现向上支持各种语言模型、多模态模型、具身智能模型，向下支持各种芯片架构、多种系统硬件形态以及各种应用场景。

FlagOS1.6已全面开源，点击获取相关资源

FlagOS 官网：flagos.io

FlagOS 交互式问答入口：wiki.flagos.io

FlagOS 文档：docs.flagos.io

FlagOS Github 总入口：github.com/flagos-ai

**FlagScale v1.0：破解“M*N”适配困局，实现训练推理一体化

现有 AI 生态中涌现各种 AI 模型以及芯片。M 种大模型需适配 N 种芯片形成 M*N 种的模型到芯片的连接路径，这种路径就像一根根互不相通的“烟囱”，资源和技术无法复用，造成 AI 生态割裂的难题。

FlagOS 从解决“ N 种芯片生态”的统一，进入解决“ M 种框架/算法包的接入”的下半程。FlagOS v1.6 推出统一多芯片多框架的训练与推理插件体系，是把 N*M 变为 N+M 的关键技术。通过插件方式，对框架和算法包实现非侵入式修改极大降低适配成本，助力大模型“即插即用”式使用，保留用户使用习惯，获得无缝跨芯的一致性结果。

FlagScale v1.0 重构代码库，将特定于硬件（多芯片）的支持迁移至插件体系中。该插件体系包括以下训练与推理框架插件：

训练框架插件：Megatron-LM-FL 和 TransformerEngine-FL。FlagScale 通过构建统一多后端训练插件体系，将原有的“乘性耦合”解耦为“加性扩展”，在无需侵入框架源码的前提下，实现相同训练脚本在多种不同芯片上执行。基于 FlagOS-UniDev 多芯片中间层，已形成 Megatron-LM-FL、TransformerEngine-FL 插件化的框架，对算子注册、内存布局、执行语义进行了统一抽象。基于插件系统，用户仅需在 YAML 配置中指定选用的 OP 后端，即可触发运行时自动组装与策略验证，实现“零代码修改”的跨芯迁移。
推理框架插件：vLLM-plugin-FL。通过构建统一多后端推理插件体系，实现各厂商无需侵入修改推理框架代码，同一命令即可在不同芯片上进行模型推理。推理插件与训练插件采取统一路线，基于 FlagOS-UniDev 多芯片中间层，已形成 vllm-plugin-FL 插件化的框架。为保障推理场景下的高吞吐量目标，不同芯片采用统一的请求调度策略，同时在算子层面支持自适应优化，能够基于推理不同阶段智能匹配最优的算子执行策略。

在靠近用户侧，提供了统一易用的使用方式，基于统一的 runner，用户修改 yaml 配置即可开启训练或推理。同时提供了并行策略自动调优、容错、预估、分布式检查点等特性。用户接口之下，FlagScale 实现训练、微调、压缩到推理部署的全流程覆盖，接入了多后端执行引擎，Megatron-LM / Vllm / Sglang 等后端。除此之外，FlagScale v1.0 通过插件化系统支持多芯片多语言多后端，接入了统一算子库 FlagGems 和统一通信库 FlagCX。FlagScale 已支持英伟达、天数、沐曦、昆仑芯、寒武纪、海光、华为昇腾、摩尔线程、清微智能等 9 种芯片的端到端训练。

相关资源

FlagScale 项目的 Github 地址：github.com/flagos-ai/F…

插件的 Github 地址：

vLLM-plugin-FL: github.com/flagos-ai/v…
Megatron-LM-FL: github.com/flagos-ai/M…
TransformerEngine-FL: github.com/flagos-ai/T…

KernelGen v1.0：构建“人机协同”新范式，丰富高性能算子供给

算子开发长期面临高门槛、低效率的行业瓶颈，其核心痛点在于高度的手工复杂性与硬件依赖性。开发者不仅需精准处理繁琐的边界条件并手动优化内存访问，还必须亲自实现完整的反向传播逻辑。同时，跨硬件适配迫使同一算子需针对不同架构重复开发，加之调试工具匮乏，导致开发周期漫长，严重制约了算法创新与算力释放。

FlagOS正在改变系统软件由“人力堆砌”的传统开发模式。通过KernelGen自动化工具，将原本需要以“年”为单位的算子开发周期缩短至“小时”级（从 1 年降至 3 小时），实现了算子生产的工业化自动流水线。这种 AI 自动生成代码并完成验证的机制，是应对硬件迭代速度远超软件适配速度的核心手段。

KernelGen v1.0 是面向高性能 Triton 算子生成的自动化工具平台，并已实现多芯片后端支持。作为对原有 Triton Copilot 的一次全面升级，KernelGen v1.0 不再局限于“代码助手”角色，而是构建起覆盖算子从生成、验证到跨芯片适配的完整生命周期能力。

KernelGen v1.0 的流程

KernelGen 提供了一种端到端的算子自动生成与优化方案，显著降低高性能算子开发门槛。用户仅需通过自然语言描述、数学公式 或已有实现表达算子需求，系统即可从算子生成知识库中智能检索相关先验，并支持用户选择参考的知识来源。在此基础上，KernelGen 自动生成高质量 Triton 内核代码，并同步完成对比测试构建与部署，在目标硬件上与 PyTorch 基准实现进行严格的一致性校验，确保数值正确性。进一步地，系统对生成算子进行性能评测与加速比量化分析，并通过自动化调优持续优化执行效率，实现从需求描述到高性能算子落地的全流程自动化。

算子生成完成后，用户可将生成的算子及其性能测试结果回馈至 FlagGems，作为实验性算子纳入社区生态，依次经历功能与数值正确性验证、跨硬件与多配置性能评测、稳定性与可维护性评审等阶段。在满足一致性、性能与工程质量要求后，实验算子将被正式升级为稳定算子，并纳入 FlagGems 的标准算子库，进入生产级使用与长期维护阶段，持续为多芯片、多后端场景提供高性能算子支撑。

在KernelGen的支持下，FlagGems持续扩容，总规模增至363个高质量算子，包括正式发布的230个算子，以及首批人工智能辅助生成的133个算子，为训练提升训练速度与效率，支持更复杂的模型结构，降低显存/内存占用，增强跨芯片通用性。FlagGems 作为全球最大的 Triton 算子库，其中 80%以上的 Triton 算子与 CUDA 原生算子性能平齐或超过，并已支持 10 多种 AI 芯片。

端到端算子生成效率显著提升：从用户输入需求（自然语言 / 数学公式 / 参考实现）到可运行 Triton 内核代码的生成，最快耗时低于 120 秒，实现分钟级算子交付。
规模化算子开发效率跃迁：在自动化算子生成与评测流程支持下，200+ 算子的开发周期由传统人工模式下约 1 年，压缩至约 3 小时，大幅降低工程与人力成本。

相关资源

KernelGen 工具地址：kernelgen.flagos.io

KernelGen 项目的 Github 地址：github.com/flagos-ai/k…

FlagGems 项目的 Github 地址：github.com/flagos-ai/F…

FlagTree v0.4：推出三层次编译语言，算子开发更灵活

在当前的 AI 算子开发领域，开发者长期面临着生产力（开发效率）与极致性能（运行效率）之间的严重割裂。这种割裂迫使开发者在不同的阶段或面对不同需求时，必须在多个互不兼容的编译器生态间频繁切换，造成了巨大的工程负担。为应对这些挑战，FlagTree升级推出Triton语言扩展（TLE）的预览版，通过 TLE 三层编译器提示语言构建了分层抽象逻辑，通过统一的 IR（中间表达）确保了跨代硬件的性能挖掘能力。

TLE 的目标很明确，为不同层次的用户——无论是算法工程师、算子开发者，还是性能优化专家——提供一个统一而灵活的语言扩展体系，让大家在享受 Triton 简洁性的同时，也能应对更复杂的硬件和场景挑战。

TLE 设计了三个层次的语言：

TLE-Lite 的设计哲学是 “一次编写，到处运行” 。允许用户以最小的改动修改现有的 Triton 内核，同时兼容各种硬件后端。其可用于算法工程师的快速优化场景。
TLE-Struct 面向的是架构感知的精细调优。它的核心理念是：根据硬件架构特征，将后端分为 GPGPU、DSA 等聚类，暴露通用的层次化并行和存储结构。这意味着，开发者可以显式定义数据布局、结构化计算映射，从而更好地发挥硬件的差异化能力。这一层主要面向算子开发工程师，帮助他们在不写底层代码的情况下，实现更贴近硬件的优化。
TLE-Raw 的设计理念是 “原生透传，极致掌控” 。目标用户是性能优化专家。它允许你打破 DSL 的抽象边界，直接内联厂商原生代码，比如 CUDA、MLIR 等。

以SparseMLA算子优化为例，使用TLE-Lite替换一行代码就可以在Hopper GPU实现27%的性能提升。进一步使用TLE-Struct优化，在Ascend 910B实现追平官方AscendC的性能，远超TileLang-Ascend。****

相关资源

FlagTree 项目的 Github 地址：github.com/flagos-ai/f…

降低具身智能研发门槛，打通落地“最后一公里”

具身智能作为人工智能与现实物理世界交互的关键前沿，其研发长期面临极高的工程化壁垒。具身智能研发涉及感知、决策、控制等多模态融合，数据采集、仿真训练到实体部署的流程中存在大量断点，导致研发周期长、产业化困难。

为降低具身智能研发门槛、加速技术向产业转化，FlagOS 1.6 专门推出面向具身智能的 FlagOS-Robo 版本。它是一个集成的训练与推理框架，可以在从边缘到云端的各种场景中进行部署。凭借在各种芯片型号间的可移植性，它能够为视觉语言模型（VLMs）和视觉语言动作模型（VLA）实现高效的训练、推理和部署。在这里，VLMs 通常充当任务规划的大脑，而 VLA 模型则充当小脑，输出用于机器人控制的动作。

FlagOS-Robo 支持具身智能模型的整个生命周期，包括从多种格式加载数据、监督微调（SFT）、推理部署，以及通过 FlagEval-Robo 平台进行综合测试和评估。用户可以通过下载并运行提供的示例，在自己的环境中轻松复现完整的端到端流程。

在FlagOS-Robo的支持下，RoboBrain完成了在摩尔线程千卡大规模集群上进行训练，损失值 loss 与英伟达基线对齐，训练趋势一致，最终 loss 差异 0.62%，在下游任务的多个评测集上对齐效果，证明了该框架在使用多元芯片训练大模型时的可用性和易用性。此外，我们也在摩尔线程千卡集群上进行了扩展效率实验，当计算资源从 64 张卡增加到 1024 张卡时，训练速度几乎能线性提升，效率高达 90.2%。这验证了 FlagOS-Robo 框架在大规模分布式训练中的高效通信和协同能力。

智源打造具身智能一站式平台 RoboXStudio，融合 CoRobot、FlagOS-Robo 与 RoboBrain，提供从数据采集、标注到 VLA 模型微调训练的全流程服务，支持无需本地部署的在线实验。平台兼具全面的数据覆盖、系统化的采集管理闭环与智能化的数据处理与任务拆解能力，显著降低使用门槛与成本。

相关资源

FlagOS-Robo 项目的 Github 地址：github.com/flagos-ai/F…

智源具身智能一站式平台：ei2data.baai.ac.cn/home

众智FlagOS自诞生之初，便坚持开源开放。我们坚信，唯有开源才能汇聚全球智慧，唯有开放才能打破生态壁垒。FlagOS 1.6 的所有技术进步，都将持续通过开源社区与全球开发者共享。我们诚挚邀请全球产学研界的每一位协作者加入FlagOS生态，共同测试、贡献与优化，一起锻造智能时代坚实、普惠、开放的智算底座。