异构计算

异构计算

异构计算

百度智能云异构计算专栏

暂无订阅共17篇文章创建于2024-06-05

让 AI 学会「专家级思考」的 Agent 开发框架 LoongFlow 开源发布

LoongFlow 是百度百舸团队发布的一个开源的、旨在让 AI 学会「专家级思考」的智能体开发框架。我们相信，设计一个能解决复杂问题的专家级 Agent，关键在于其思考模式——它决定了 Agent

1月前
95
点赞
评论

2 天速通小米 MiMo Flash V2，vLLM-Kunlun Plugin 助力昆仑芯高效适配最新大模型

百度百舸和昆仑芯的技术团队基于 vLLM-Kunlun Plugin，仅用 2 天时间便在 vLLM 环境中实现了 MiMo Flash V2 在昆仑芯 P800 XPU 上的全流程适配。

1月前
52
点赞
评论

最大无本体具身数据集开源！简智机器人联合百度百舸，加速具身智能应用落地

最大无本体具身数据集开源！简智机器人秉持「具身智能源于人、回归人」的核心理念，将「RealOmni」数据集第一时间同步在百度百舸平台，便于具身智能行业伙伴快速将数据集应用于业务中。

2月前
123
点赞
评论

规模最大、性能最好，百度百舸助力北京人形打造开源具身多模态大脑模型 Pelican-VL1.0

百度百舸联合北京人形，构建了覆盖「模型提效加速、训练稳定性保障、企业级开发平台」的 AI Infra 具身智能解决方案，加速了 Pelican-VL 模型的落地。

2月前
60
点赞
评论

DeepSeek-V3.2 128K 推理秒开？百度百舸开源 CP 上下文并行方案

百度百舸 AIAK 团队为 DeepSeek V3.2 开发的上下文并行（Context Parallelism, CP）方案已正式合入 SGLang 主分支。

2月前
112
点赞
评论

百度百舸面向 DeepSeek V3 系列模型 AE 分离框架的实战

本文整理自 2025 年 12 月 14 日的「百度百舸 X SGLang Meetup 北京站」的同名主题分享。在公众号回复「AI Infra」，可以获得此次 Meetup 下半场的 3 个演讲主题

2月前
213
点赞
评论

针对 DeepSeek V3.2 的推理引擎深度优化

本文整理自 2025 年 12 月 14 日的「百度百舸 X SGLang Meetup 北京站」的同名主题分享。

2月前
79
点赞
评论

百度百舸打造大规模分布式推理集群的基础设施

本文整理自 2025 年 12 月 14 日的「百度百舸 X SGLang Meetup 北京站」的同名主题分享。在公众号回复「SGLangV5」，可以获得此次 Meetup 上半场的 4 个演讲主题

2月前
86
点赞
评论

提升超长上下文本推理吞吐，百度百舸 ESS 技术报告新鲜奉上

长文本推理被「显存墙」卡住在 32K 至 128K 超长上下文场景中，DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache

3月前
42
点赞
评论

百度百舸 X 昆仑芯 | 开源 vLLM-Kunlun Plugin，快速适配新模型、跑出极致性能

百度百舸联合昆仑芯正式推出 vLLM-Kunlun Plugin —— 一款面向百度昆仑芯 XPU 的高性能 vLLM 平台插件，该 Plugin 现已全面开源。

3月前
157
点赞
评论

突破显存瓶颈：基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与模拟验证

1. 引言 DeepSeek-V3.2-Exp 所搭载的稀疏化 Attention 计算，在长上下文场景中成功降低了推理延迟。但在 PD 分离架构下，随着序列长度不断增长，Decode 阶段的吞

3月前
101
点赞
评论

一次快速响应的开源协作，让 DeepSeek-V3.2-Exp 性能满血回归

部署 DeepSeek-V3.2-Exp 时，百度百舸团队发现其长上下文性能明显低于官方报告。经排查，问题源于官方开源的 Inference Demo 中 RoPE 排布方式的一处细微错配。

3月前
139
点赞
评论

面向复杂生产场景的 Token 双流：百度百舸开源贡献至 SGLang 社区

在百度百舸线上真实业务中（约束首 token 延迟 TTFT < 1 秒），单机吞吐最高提升达 30%。在 25 年 8 月百度百舸将 Token 双流核心代码正式贡献至 SGLang 开源社区。

3月前
60
点赞
评论

百度智能云 X 十字路口 | 对谈王雁鹏：亲述从大数据时代到 3 万卡集群的中国算力演进史

在 AI 的下半场，算法的创新固然重要，但算力好像正在成为终极的变量，AI 的军备竞赛，已经从代码和模型，延伸到了芯片、电力和数据中心这些更底层的物理世界。

4月前
67
点赞
评论

基于 veRL 多模态混训的视频上下文并行，百度百舸提升具身智能强化学习效能

在客户场景的实际测试中，相比社区原有方案，百度百舸的方案经过合理的切分配置，单段视频支持的帧数上限提升超过 2 倍，单帧最大分辨率上限提升超过 2.6 倍，可以大幅缩短训练时间。

4月前
79
点赞
评论

百度百舸平台的大模型训练最佳实践

本次我的分享主题在技术上算是对前面内容的综合，将围绕百舸在大模型训练过程的稳定性设计和加速实践展开，包括以下 3 个部分：大模型时代的百舸异构计算平台；大模型训练稳定性实践；大模型训推加速实践。

1年前
393
点赞
评论

一次性讲明白，百度百舸如何搞定一个可以支持多芯混合训练的 AI 集群

由于外部环境的变化，适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群，仍然是当前加速大模型训练的主要 AI 算力来源。

1年前
300
点赞
评论