首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
GPUStack
掘友等级
高性能模型推理平台
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议
NVIDIA H200/H20 141GB 环境部署 DeepSeek-V4-Pro 的实践教程、压测性能表现,以及针对压测表现提供的稳定性配置建议。
Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现
本文介绍了高性能大模型 DeepSeek-V4 的架构优势,并重点演示了如何基于开源平台 GPUStack,在国产昇腾 910B 算力环境下高效部署该模型。
27B 超越 397B,Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现
vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现,让“模型规模与能力线性增长”的经验不断被打破。
Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B
多节点 Data Parallel 部署可基于各节点负载动态分发请求,减少长请求阻塞带来的性能抖动,在高并发场景下提升整体吞吐稳定性。
在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维
在当前大模型推理逐步走向生产化的背景下,如何在多样化硬件环境上高效、稳定地管理推理服务,在工程落地中尤其关键。
vLLM 新参数 performance-mode 能带来多大提升?Qwen3.5 实测告诉你答案
本文基于 Qwen3.5 在 H100/H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cache 等优化
挑战 Qwen 3.5:Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程
随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用
vLLM Ascend 是最优解吗?基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理
在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件
倒计时 1 天!北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点
本周六北京 SGLang Meetup,一场关于 AI Infra 的深度对话
会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点
下一页
个人成就
文章被点赞
1
文章被阅读
10,363
掘力值
468
关注了
0
关注者
6
收藏集
0
关注标签
14
加入于
2024-06-24