当前,芯片架构正向3D堆叠、存算一体等新形态发展,各类异构超节点持续涌现,导致算力基础设施日趋复杂与碎片化。与此同时,大模型、具身智能、AI智能体等新范式加速迭代,催生出复杂的新型算子需求和混合计算模式,进一步加剧了开发验证的周期与跨平台调优的难度。这都对系统软件栈的兼容性、开发效率及全栈支持能力提出了更高要求。
为破解AI芯片生态割裂,算力迁移成本高昂的行业困境,2026年1月,北京智源人工智能研究院联合学术界与产业界伙伴,共同推出了面向多种AI芯片的统一、开源系统软件栈——众智FlagOS的1.6版本。
本次FlagOS1.6版本来自中科院计算所、中科加禾、先进编译实验室、澎峰科技、安谋科技、北京大学、基流科技、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、摩尔线程、沐曦科技、清微智能、天数智芯、中国矿业大学(北京)、移动研究院等超过20个团队,全球600多位开源社区开发者的共同贡献。
FlagOS1.6在多芯片支撑框架、统一编译器、算子库、算子自动生成工具等方面实现系统性升级,显著提升模型跨芯片兼容能力,大幅优化开发流程效率,并全面深化对具身智能的全栈支持,进一步实现向上支持各种语言模型、多模态模型、具身智能模型,向下支持各种芯片架构、多种系统硬件形态以及各种应用场景。
FlagOS1.6已全面开源,点击获取相关资源
FlagOS 官网:flagos.io
FlagOS 交互式问答入口:wiki.flagos.io
FlagOS 文档:docs.flagos.io
FlagOS Github 总入口:github.com/flagos-ai
**FlagScale v1.0:破解“M*N”适配困局,实现训练推理一体化
现有 AI 生态中涌现各种 AI 模型以及芯片。M 种大模型需适配 N 种芯片形成 M*N 种的模型到芯片的连接路径,这种路径就像一根根互不相通的“烟囱”,资源和技术无法复用,造成 AI 生态割裂的难题。
FlagOS 从解决“ N 种芯片生态”的统一,进入解决“ M 种框架/算法包的接入”的下半程。FlagOS v1.6 推出统一多芯片多框架的训练与推理插件体系,是把 N*M 变为 N+M 的关键技术。通过插件方式,对框架和算法包实现非侵入式修改极大降低适配成本,助力大模型“即插即用”式使用,保留用户使用习惯,获得无缝跨芯的一致性结果。
FlagScale v1.0 重构代码库,将特定于硬件(多芯片)的支持迁移至插件体系中。该插件体系包括以下训练与推理框架插件:
-
训练框架插件:Megatron-LM-FL 和 TransformerEngine-FL。FlagScale 通过构建统一多后端训练插件体系,将原有的“乘性耦合”解耦为“加性扩展”,在无需侵入框架源码的前提下,实现相同训练脚本在多种不同芯片上执行。基于 FlagOS-UniDev 多芯片中间层,已形成 Megatron-LM-FL、TransformerEngine-FL 插件化的框架,对算子注册、内存布局、执行语义进行了统一抽象。基于插件系统,用户仅需在 YAML 配置中指定选用的 OP 后端,即可触发运行时自动组装与策略验证,实现“零代码修改”的跨芯迁移。
-
推理框架插件:vLLM-plugin-FL。通过构建统一多后端推理插件体系,实现各厂商无需侵入修改推理框架代码,同一命令即可在不同芯片上进行模型推理。推理插件与训练插件采取统一路线,基于 FlagOS-UniDev 多芯片中间层,已形成 vllm-plugin-FL 插件化的框架。为保障推理场景下的高吞吐量目标,不同芯片采用统一的请求调度策略,同时在算子层面支持自适应优化,能够基于推理不同阶段智能匹配最优的算子执行策略。
在靠近用户侧,提供了统一易用的使用方式,基于统一的 runner,用户修改 yaml 配置即可开启训练或推理。同时提供了并行策略自动调优、容错、预估、分布式检查点等特性。用户接口之下,FlagScale 实现训练、微调、压缩到推理部署的全流程覆盖,接入了多后端执行引擎,Megatron-LM / Vllm / Sglang 等后端。除此之外,FlagScale v1.0 通过插件化系统支持多芯片多语言多后端,接入了统一算子库 FlagGems 和统一通信库 FlagCX。FlagScale 已支持英伟达、天数、沐曦、昆仑芯、寒武纪、海光、华为昇腾、摩尔线程、清微智能等 9 种芯片的端到端训练。
相关资源
FlagScale 项目的 Github 地址:github.com/flagos-ai/F…
插件的 Github 地址:
-
vLLM-plugin-FL: github.com/flagos-ai/v…
-
Megatron-LM-FL: github.com/flagos-ai/M…
-
TransformerEngine-FL: github.com/flagos-ai/T…
KernelGen v1.0:构建“人机协同”新范式,丰富高性能算子供给
算子开发长期面临高门槛、低效率的行业瓶颈,其核心痛点在于高度的手工复杂性与硬件依赖性。开发者不仅需精准处理繁琐的边界条件并手动优化内存访问,还必须亲自实现完整的反向传播逻辑。同时,跨硬件适配迫使同一算子需针对不同架构重复开发,加之调试工具匮乏,导致开发周期漫长,严重制约了算法创新与算力释放。
FlagOS正在改变系统软件由“人力堆砌”的传统开发模式。通过KernelGen自动化工具,将原本需要以“年”为单位的算子开发周期缩短至“小时”级(从 1 年降至 3 小时),实现了算子生产的工业化自动流水线。这种 AI 自动生成代码并完成验证的机制,是应对硬件迭代速度远超软件适配速度的核心手段。
KernelGen v1.0 是面向高性能 Triton 算子生成的自动化工具平台,并已实现多芯片后端支持。作为对原有 Triton Copilot 的一次全面升级,KernelGen v1.0 不再局限于“代码助手”角色,而是构建起覆盖算子从生成、验证到跨芯片适配的完整生命周期能力。
KernelGen v1.0 的流程
KernelGen 提供了一种端到端的算子自动生成与优化方案,显著降低高性能算子开发门槛。用户仅需通过自然语言描述、数学公式 或已有实现表达算子需求,系统即可从算子生成知识库中智能检索相关先验,并支持用户选择参考的知识来源。在此基础上,KernelGen 自动生成高质量 Triton 内核代码,并同步完成对比测试构建与部署,在目标硬件上与 PyTorch 基准实现进行严格的一致性校验,确保数值正确性。进一步地,系统对生成算子进行性能评测与加速比量化分析,并通过自动化调优持续优化执行效率,实现从需求描述到高性能算子落地的全流程自动化。
算子生成完成后,用户可将生成的算子及其性能测试结果回馈至 FlagGems,作为实验性算子纳入社区生态,依次经历功能与数值正确性验证、跨硬件与多配置性能评测、稳定性与可维护性评审等阶段。在满足一致性、性能与工程质量要求后,实验算子将被正式升级为稳定算子,并纳入 FlagGems 的标准算子库,进入生产级使用与长期维护阶段,持续为多芯片、多后端场景提供高性能算子支撑。
在KernelGen的支持下,FlagGems持续扩容,总规模增至363个高质量算子,包括正式发布的230个算子,以及首批人工智能辅助生成的133个算子,为训练提升训练速度与效率,支持更复杂的模型结构, 降低显存/内存占用,增强跨芯片通用性。FlagGems 作为全球最大的 Triton 算子库,其中 80%以上的 Triton 算子与 CUDA 原生算子性能平齐或超过,并已支持 10 多种 AI 芯片。
-
端到端算子生成效率显著提升:从用户输入需求(自然语言 / 数学公式 / 参考实现)到可运行 Triton 内核代码的生成,最快耗时低于 120 秒,实现分钟级算子交付。
-
规模化算子开发效率跃迁:在自动化算子生成与评测流程支持下,200+ 算子的开发周期由传统人工模式下约 1 年,压缩至约 3 小时,大幅降低工程与人力成本。
相关资源
KernelGen 工具地址:kernelgen.flagos.io
KernelGen 项目的 Github 地址:github.com/flagos-ai/k…
FlagGems 项目的 Github 地址:github.com/flagos-ai/F…
FlagTree v0.4:推出三层次编译语言,算子开发更灵活
在当前的 AI 算子开发领域,开发者长期面临着生产力(开发效率)与极致性能(运行效率)之间的严重割裂。这种割裂迫使开发者在不同的阶段或面对不同需求时,必须在多个互不兼容的编译器生态间频繁切换,造成了巨大的工程负担。为应对这些挑战,FlagTree升级推出Triton语言扩展(TLE)的预览版,通过 TLE 三层编译器提示语言构建了分层抽象逻辑,通过统一的 IR(中间表达)确保了跨代硬件的性能挖掘能力。
TLE 的目标很明确,为不同层次的用户——无论是算法工程师、算子开发者,还是性能优化专家——提供一个统一而灵活的语言扩展体系,让大家在享受 Triton 简洁性的同时,也能应对更复杂的硬件和场景挑战。
TLE 设计了三个层次的语言:
-
TLE-Lite 的设计哲学是 “一次编写,到处运行” 。允许用户以最小的改动修改现有的 Triton 内核,同时兼容各种硬件后端。其可用于算法工程师的快速优化场景。
-
TLE-Struct 面向的是架构感知的精细调优。它的核心理念是:根据硬件架构特征,将后端分为 GPGPU、DSA 等聚类,暴露通用的层次化并行和存储结构。这意味着,开发者可以显式定义数据布局、结构化计算映射,从而更好地发挥硬件的差异化能力。这一层主要面向算子开发工程师,帮助他们在不写底层代码的情况下,实现更贴近硬件的优化。
-
TLE-Raw 的设计理念是 “原生透传,极致掌控” 。目标用户是性能优化专家。它允许你打破 DSL 的抽象边界,直接内联厂商原生代码,比如 CUDA、MLIR 等。
以SparseMLA算子优化为例,使用TLE-Lite替换一行代码就可以在Hopper GPU实现27%的性能提升。进一步使用TLE-Struct优化,在Ascend 910B实现追平官方AscendC的性能,远超TileLang-Ascend。****
相关资源
FlagTree 项目的 Github 地址:github.com/flagos-ai/f…
降低具身智能研发门槛,打通落地“最后一公里”
具身智能作为人工智能与现实物理世界交互的关键前沿,其研发长期面临极高的工程化壁垒。具身智能研发涉及感知、决策、控制等多模态融合,数据采集、仿真训练到实体部署的流程中存在大量断点,导致研发周期长、产业化困难。
为降低具身智能研发门槛、加速技术向产业转化,FlagOS 1.6 专门推出面向具身智能的 FlagOS-Robo 版本。它是一个集成的训练与推理框架,可以在从边缘到云端的各种场景中进行部署。凭借在各种芯片型号间的可移植性,它能够为视觉语言模型(VLMs)和视觉语言动作模型(VLA)实现高效的训练、推理和部署。在这里,VLMs 通常充当任务规划的大脑,而 VLA 模型则充当小脑,输出用于机器人控制的动作。
FlagOS-Robo 支持具身智能模型的整个生命周期,包括从多种格式加载数据、监督微调(SFT)、推理部署,以及通过 FlagEval-Robo 平台进行综合测试和评估。用户可以通过下载并运行提供的示例,在自己的环境中轻松复现完整的端到端流程。
在FlagOS-Robo的支持下,RoboBrain完成了在摩尔线程千卡大规模集群上进行训练,损失值 loss 与英伟达基线对齐,训练趋势一致,最终 loss 差异 0.62%,在下游任务的多个评测集上对齐效果,证明了该框架在使用多元芯片训练大模型时的可用性和易用性。此外,我们也在摩尔线程千卡集群上进行了扩展效率实验,当计算资源从 64 张卡增加到 1024 张卡时,训练速度几乎能线性提升,效率高达 90.2%。这验证了 FlagOS-Robo 框架在大规模分布式训练中的高效通信和协同能力。
智源打造具身智能一站式平台 RoboXStudio,融合 CoRobot、FlagOS-Robo 与 RoboBrain,提供从数据采集、标注到 VLA 模型微调训练的全流程服务,支持无需本地部署的在线实验。平台兼具全面的数据覆盖、系统化的采集管理闭环与智能化的数据处理与任务拆解能力,显著降低使用门槛与成本。
相关资源
FlagOS-Robo 项目的 Github 地址:github.com/flagos-ai/F…
智源具身智能一站式平台:ei2data.baai.ac.cn/home
众智FlagOS自诞生之初,便坚持开源开放。我们坚信,唯有开源才能汇聚全球智慧,唯有开放才能打破生态壁垒。FlagOS 1.6 的所有技术进步,都将持续通过开源社区与全球开发者共享。我们诚挚邀请全球产学研界的每一位协作者加入FlagOS生态,共同测试、贡献与优化,一起锻造智能时代坚实、普惠、开放的智算底座。