GPUStack

高性能模型推理平台

赞

0

|

搜索文章

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理

最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元。

26天前
25
点赞
评论

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

通过 n8n 接入 GPUStack 本地模型，构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行，零 API 成本，数据不出域，快速体验私有化 AI 自动化。

1月前
90
点赞
评论

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

GPUStack 自定义后端系列 | MinerU：打造超强 PDF 文档解析服务

GPUStack v2 自定义后端功能实战！本文以 MinerU 为例，手把手教你快速接入并运行超强 PDF 解析工具，轻松构建私有化文档提取服务。

1月前
68
点赞
评论

GPUStack 自定义后端系列 | MinerU：打造超强 PDF 文档解析服务

释放H200全部潜力：DeepSeek-V3.2推理性能提升161%的优化秘籍

相比于未优化的 vLLM 基线，经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了 57.8% 至 153.6% 的吞吐量提升。

1月前
95
点赞
评论

释放H200全部潜力：DeepSeek-V3.2推理性能提升161%的优化秘籍

GPUStack Windows（WSL2）部署指南

GPUStack v2 以高性能推理与生产级稳定性为核心演进方向，对整体架构进行了全面重构，实现了组件间的灵活解耦，并对多推理引擎和异构算力进行了深度优化，充分释放推理引擎在吞吐、延迟与并发方面的性能

2月前
87
点赞
评论

GPUStack Windows（WSL2）部署指南

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

在大模型推理的下半场，GPUStack v2 不再是简单的模型服务平台，而是高性能推理生态的协调者与赋能者。

3月前
110
点赞
评论

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

百度发布0.9B的PaddleOCR-VL模型登顶SOTA！来看如何通过GPUStack高效推理部署，体验行业顶尖的OCR文档解析模型。

4月前
247
点赞
评论

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

昇腾多机推理太复杂？易出错？试试 GPUStack。通过 GPUStack 快速在昇腾上丝滑运行 MindIE 分布式推理

5月前
705
点赞
评论

昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。

6月前
440
点赞
评论

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

GPUStack v0.7重磅发布：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

GPUStack 是一个 100% 开源的模型服务平台，支持多种 GPU（如 NVIDIA、AMD、Apple Silicon、昇腾、寒武纪等）构建异构 GPU 集群

7月前
208
点赞
评论

GPUStack v0.7重磅发布：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

个人成就

文章被点赞 1

文章被阅读 6,636

加入于

2024-06-24