首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
GPUStack
掘友等级
高性能模型推理平台
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
vLLM 新参数 performance-mode 能带来多大提升?Qwen3.5 实测告诉你答案
本文基于 Qwen3.5 在 H100/H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cache 等优化
挑战 Qwen 3.5:Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用
vLLM Ascend 是最优解吗?基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件
倒计时 1 天!北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点
本周六北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点
3.28 北京 Meetup,与 GPUStack、SGLang、MiniCPM 核心成员一起深度对话 AI Infra
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点
阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑
GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS
GPUStack 离线部署镜像准备与国内加速源
通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件,动态生成对应的 GPUStack 容器镜像列表,并提供镜像准备与离线部署参考命令。
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台
通过 GPUStack 提供高效的模型部署与管理能力,并将模型接入 MaxKB,即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。
从模型推理到开源 AI 基础设施平台:GPUStack v2.1 的关键演进
随着大模型进入生产环境,AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力,为企业构建统一、高性能的AI模型服务平台
下一页
个人成就
文章被点赞
1
文章被阅读
8,634
掘力值
415
关注了
0
关注者
5
收藏集
0
关注标签
14
加入于
2024-06-24