首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
GPUStack
掘友等级
高性能模型推理平台
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
GPUStack
15天前
关注
NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议
NVIDIA H200/H20 141GB 环境部署 DeepSeek-V4-Pro 的实践教程、压测性能表现,以及针对压测表现提供的稳定性配置建议。...
0
评论
分享
GPUStack
16天前
关注
Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现
本文介绍了高性能大模型 DeepSeek-V4 的架构优势,并重点演示了如何基于开源平台 GPUStack,在国产昇腾 910B 算力环境下高效部署该模型。...
0
评论
分享
GPUStack
20天前
关注
27B 超越 397B,Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现
vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现,让“模型规模与能力线性增长”的经验不断被打破。...
0
评论
分享
GPUStack
22天前
关注
Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B
多节点 Data Parallel 部署可基于各节点负载动态分发请求,减少长请求阻塞带来的性能抖动,在高并发场景下提升整体吞吐稳定性。...
0
评论
分享
GPUStack
28天前
关注
在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维
在当前大模型推理逐步走向生产化的背景下,如何在多样化硬件环境上高效、稳定地管理推理服务,在工程落地中尤其关键。...
0
评论
分享
GPUStack
1月前
关注
vLLM 新参数 performance-mode 能带来多大提升?Qwen3.5 实测告诉你答案
本文基于 Qwen3.5 在 H100/H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cac...
0
评论
分享
GPUStack
1月前
关注
挑战 Qwen 3.5:Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理...
0
评论
分享
GPUStack
1月前
关注
vLLM Ascend 是最优解吗?基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作...
0
评论
分享
GPUStack
1月前
关注
倒计时 1 天!北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与...
0
评论
分享
GPUStack
1月前
关注
本周六北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与...
0
评论
分享
GPUStack
1月前
关注
3.28 北京 Meetup,与 GPUStack、SGLang、MiniCPM 核心成员一起深度对话 AI Infra
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与...
0
评论
分享
GPUStack
1月前
关注
阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑
GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监...
0
评论
分享
GPUStack
2月前
关注
GPUStack 离线部署镜像准备与国内加速源
通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件,动态生成对应的 GPUStack 容器镜像列表,并提供镜像准备与离线部署参考命令。...
0
评论
分享
GPUStack
2月前
关注
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台
通过 GPUStack 提供高效的模型部署与管理能力,并将模型接入 MaxKB,即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。...
0
评论
分享
GPUStack
2月前
关注
从模型推理到开源 AI 基础设施平台:GPUStack v2.1 的关键演进
随着大模型进入生产环境,AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力,为企业构建统一、高性能的AI模型服务平台...
0
评论
分享
GPUStack
2月前
关注
当 GPUStack 遇到 SOAR:让开源大模型推理跑得再快一点!
随着大模型应用规模持续扩张,如何在有限算力条件下提升推理效率,已成为 AI 基础设施建设的核心课题。 GPUStack 致力于统一管理异构 GPU 资源,实现高性能、稳定且...
0
评论
分享
GPUStack
2月前
关注
手把手教程:在 AI Max 395 上跑通 AgentCPM,无缝接入 DeepResearch
基于AI Max 395,本文记录通过GPUStack部署AgentCPM模型并接入DeepResearch的全流程,包括环境配置、模型部署与应用验证,为本地运行智能体大模...
0
评论
分享
GPUStack
2月前
关注
Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手
本文基于 GPUStack 提供的本地模型能力,结合 OpenClaw 与飞书,实战演示如何构建一个可长期运行、几乎不再关心 Token 消耗的本地 AI 助手,让 AI ...
0
评论
分享
GPUStack
3月前
关注
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 ...
0
评论
分享
GPUStack
3月前
关注
GPUStack 实战:n8n 接入本地模型,零成本打造 AI 资讯助手
通过 n8n 接入 GPUStack 本地模型,构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行,零 API 成本,数据不出域,快速体验私有化...
0
评论
分享
下一页
个人成就
文章被点赞
1
文章被阅读
10,365
掘力值
468
关注了
0
关注者
6
收藏集
0
关注标签
14
加入于
2024-06-24