百度百舸 Day0 完成昆仑芯和智谱 GLM-5 适配，实现「发布即可用」将主流大模型「发布即可用」常态化，让开发者和用

今日，智谱正式发布新一代大模型 GLM-5。与此同时，百度百舸 Day0 完成昆仑芯 P800 和 GLM-5 适配，用户可以在 vLLM、SGLang 等推理框架上第一时间进行业务部署。

GLM-5 擅长解决复杂系统工程与长程 Agent 任务，在 Coding 与 Agent 能力上取得开源 SOTA 表现，在真实编程场景的使用体感逼近 Claude Opus 4.5 。

全新异步强化学习框架 Slime 有效提升了 GLM-5 的强化学习后训练流程效率，异步智能体强化学习算法使得 GLM-5 能够持续从长程交互中学习，充分激发预训练模型的潜力。同时，更大规模的预训练也显著提升了 GLM-5 的通用智能水平。

百度混合云基于昆仑芯高性能算子，快速完成 GLM-5 DSA 和 MoE 适配，并通过 INT8 量化、MTP 与双机 PP 并行等优化技术，显著提升 GLM-5 模型在昆仑芯集群上的推理吞吐。

其中 vLLM-Kunlun Plugin 已开源 GLM-5 适配代码，开发者可以在昆仑芯平台快速完成 GLM-5 的部署。（ Github 地址：github.com/baidu/vLLM-…）

模型服务启动配置：

export XPU_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python -m vllm.entrypoints.openai.api_server\
       --model /GLM-5-W8A8-INT8-Dynamic \
       --tensor-parallel-size 8\
       --max_num_batched_tokens 8192\
       --block-size 64 \
       --distributed-executor-backend mp\
       --served-model-name glm-5-w8a8

截止到目前，百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地，将主流大模型「发布即可用」常态化，让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。

为便于开发者在昆仑芯上快速开发、部署高性能模型，百度百舸提供了 vLLM-Kunlun Plugin，实现主流模型的快速接入与部署；同时，百度百舸对外提供了 torch_xray、xpu_profiler 等工具，开发者可以借助这些工具高效完成推理精度对齐与性能瓶颈定位，大幅度缩短开发周期。

在完善推理框架插件和开发工具的同时，百度智能云也在不断夯实昆仑芯算力底座：

2025 年 2 月，百度智能云成功点亮昆仑芯 P800 万卡集群，这是国内首个正式点亮的自研万卡 AI 集群。同年 4 月，该集群规模进一步扩展至 3.2 万卡，并已支撑百度千帆、百度蒸汽机等多个千卡级大模型训练任务。
2025 年 4 月，百度发布基于昆仑芯的天池超节点方案，采用 32 卡一层点对点全互联架构，通信延迟低至 1.5 μs；方案兼容现有机房环境，支持单人运维，并依托昆仑芯与百度百舸的持续软硬协同优化，实现极致的每 Token 成本。

GLM-5 与昆仑芯的高效协同，标志着国产大模型与自主算力生态正加速融合。百度百舸将持续开放工具链、深化软硬协同优化，并携手智谱等领先模型厂商及广大开发者，共同推动大模型在真实场景中的高效部署与规模化应用，让先进 AI 能力更易用、更普惠、更可持续。