百度百舸 Day0 完成昆仑芯和智谱 GLM-5 适配,实现「发布即可用」

0 阅读3分钟

今日,智谱正式发布新一代大模型 GLM-5。与此同时,百度百舸 Day0 完成昆仑芯 P800 和 GLM-5 适配,用户可以在 vLLM、SGLang 等推理框架上第一时间进行业务部署。

GLM-5 擅长解决复杂系统工程与长程 Agent 任务,在 Coding 与 Agent 能力上取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5 。

全新异步强化学习框架 Slime 有效提升了 GLM-5 的强化学习后训练流程效率,异步智能体强化学习算法使得 GLM-5 能够持续从长程交互中学习,充分激发预训练模型的潜力。同时,更大规模的预训练也显著提升了 GLM-5 的通用智能水平。

百度混合云基于昆仑芯高性能算子,快速完成 GLM-5 DSA 和 MoE 适配,并通过 INT8 量化、MTP 与双机 PP 并行等优化技术,显著提升 GLM-5 模型在昆仑芯集群上的推理吞吐。

其中 vLLM-Kunlun Plugin 已开源 GLM-5 适配代码,开发者可以在昆仑芯平台快速完成 GLM-5 的部署。 ( Github 地址:github.com/baidu/vLLM-…

模型服务启动配置:

export XPU_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python -m vllm.entrypoints.openai.api_server\
       --model /GLM-5-W8A8-INT8-Dynamic \
       --tensor-parallel-size 8\
       --max_num_batched_tokens 8192\
       --block-size 64 \
       --distributed-executor-backend mp\
       --served-model-name glm-5-w8a8

截止到目前,百度百舸已在昆仑芯 XPU 上完成了 GLM、DeepSeek、Qwen、MiMo V2、Kimi 系列等主流大模型的落地,将主流大模型「发布即可用」常态化,让开发者和用户在模型上线第一时间就能切实享受到国产 AI 芯片带来的高效加速体验。

为便于开发者在昆仑芯上快速开发、部署高性能模型,百度百舸提供了 vLLM-Kunlun Plugin,实现主流模型的快速接入与部署;同时,百度百舸对外提供了 torch_xray、xpu_profiler 等工具,开发者可以借助这些工具高效完成推理精度对齐与性能瓶颈定位,大幅度缩短开发周期。

在完善推理框架插件和开发工具的同时,百度智能云也在不断夯实昆仑芯算力底座:

  • 2025 年 2 月,百度智能云成功点亮昆仑芯 P800 万卡集群,这是国内首个正式点亮的自研万卡 AI 集群。同年 4 月,该集群规模进一步扩展至 3.2 万卡,并已支撑百度千帆、百度蒸汽机等多个千卡级大模型训练任务。
  • 2025 年 4 月,百度发布基于昆仑芯的天池超节点方案,采用 32 卡一层点对点全互联架构,通信延迟低至 1.5 μs;方案兼容现有机房环境,支持单人运维,并依托昆仑芯与百度百舸的持续软硬协同优化,实现极致的每 Token 成本。

GLM-5 与昆仑芯的高效协同,标志着国产大模型与自主算力生态正加速融合。百度百舸将持续开放工具链、深化软硬协同优化,并携手智谱等领先模型厂商及广大开发者,共同推动大模型在真实场景中的高效部署与规模化应用,让先进 AI 能力更易用、更普惠、更可持续。