GPUStack

高性能模型推理平台

赞

0

|

搜索文章

15天前

NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议

NVIDIA H200/H20 141GB 环境部署 DeepSeek-V4-Pro 的实践教程、压测性能表现，以及针对压测表现提供的稳定性配置建议。...

0

评论

16天前

Day 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现

本文介绍了高性能大模型 DeepSeek-V4 的架构优势，并重点演示了如何基于开源平台 GPUStack，在国产昇腾 910B 算力环境下高效部署该模型。...

0

评论

20天前

27B 超越 397B，Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现

vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现，让“模型规模与能力线性增长”的经验不断被打破。...

0

评论

22天前

Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B

多节点 Data Parallel 部署可基于各节点负载动态分发请求，减少长请求阻塞带来的性能抖动，在高并发场景下提升整体吞吐稳定性。...

0

评论

28天前

在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维

在当前大模型推理逐步走向生产化的背景下，如何在多样化硬件环境上高效、稳定地管理推理服务，在工程落地中尤其关键。...

0

评论

1月前

vLLM 新参数 performance-mode 能带来多大提升？Qwen3.5 实测告诉你答案

本文基于 Qwen3.5 在 H100/H200 上的实测，分析 vLLM performance-mode 的实际作用。结果表明，它并非独立提速手段，而是结合量化、cac...

0

评论

1月前

挑战 Qwen 3.5：Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程

随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理...

0

评论

1月前

vLLM Ascend 是最优解吗？基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理

在昇腾（Ascend）生态中，vLLM 等推理引擎在生成类任务中表现出色，已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下，mis-tei 作...

0

评论

1月前

倒计时 1 天！北京 SGLang Meetup，一场关于 AI Infra 的深度对话

会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与...

0

评论

1月前

本周六北京 SGLang Meetup，一场关于 AI Infra 的深度对话

会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与...

0

评论

1月前

3.28 北京 Meetup，与 GPUStack、SGLang、MiniCPM 核心成员一起深度对话 AI Infra

会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与...

0

评论

1月前

阿里 PPU 加入 GPUStack 国产算力版图：异构算力统一调度的重磅里程碑

GPUStack 2.1.0 正式新增对阿里 PPU（平头哥）的支持，在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监...

0

评论

2月前

GPUStack 离线部署镜像准备与国内加速源

通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件，动态生成对应的 GPUStack 容器镜像列表，并提供镜像准备与离线部署参考命令。...

0

评论

2月前

GPUStack × MaxKB：打造强大易用的开源企业级智能体平台

通过 GPUStack 提供高效的模型部署与管理能力，并将模型接入 MaxKB，即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。...

0

评论

2月前

从模型推理到开源 AI 基础设施平台：GPUStack v2.1 的关键演进

随着大模型进入生产环境，AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力，为企业构建统一、高性能的AI模型服务平台...

0

评论

2月前

当 GPUStack 遇到 SOAR：让开源大模型推理跑得再快一点！

随着大模型应用规模持续扩张，如何在有限算力条件下提升推理效率，已成为 AI 基础设施建设的核心课题。 GPUStack 致力于统一管理异构 GPU 资源，实现高性能、稳定且...

0

评论

2月前

手把手教程：在 AI Max 395 上跑通 AgentCPM，无缝接入 DeepResearch

基于AI Max 395，本文记录通过GPUStack部署AgentCPM模型并接入DeepResearch的全流程，包括环境配置、模型部署与应用验证，为本地运行智能体大模...

0

评论

2月前

Token 不再焦虑：用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手

本文基于 GPUStack 提供的本地模型能力，结合 OpenClaw 与飞书，实战演示如何构建一个可长期运行、几乎不再关心 Token 消耗的本地 AI 助手，让 AI ...

0

评论

3月前

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理

最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 ...

0

评论

3月前

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

通过 n8n 接入 GPUStack 本地模型，构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行，零 API 成本，数据不出域，快速体验私有化...

0

评论

个人成就

文章被点赞 1

文章被阅读 10,365

加入于

2024-06-24