RTX 5090 单卡解锁 Qwen3.5 35B:开源 Patch 带来 200 TPS 极速推理,AI 爱好者福音!
在 AI 模型推理领域,追求高效与低成本一直是开发者们的梦想。最近,一位开发者通过开源 Patch,成功在单张 NVIDIA RTX 5090 显卡上运行了 Qwen3.5 35B A3B 模型,使用 NVFP4 量化后,推理速度从 150 TPS 飙升至 200 TPS!
🚀 两个版本对比
| 版本 | 模型 | 速度提升 | 链接 | | --- | --- | --- | --- | | 原版 | Qwen3.5 35B A3B | 150 TPS → 200 TPS | 仓库 | | Fork 版 | Qwen3.5 27B | 55 TPS → 80 TPS | 仓库 |
两个版本都能跑满 256K 上下文(FP8 量化),让消费级硬件也能玩转大模型推理。
📚 技术背景
Qwen3.5:阿里云的"原生多模态代理"模型家族
Qwen3.5 是阿里巴巴 Qwen 系列的最新一代大型语言模型(LLM),于 2026 年 2 月发布。采用创新的混合架构:结合 Gated Delta Networks(门控增量网络)和稀疏专家混合(MoE),总参数达 397B,但激活参数仅 17B,大大提升了推理效率。
系列模型:
-
• 🏆 旗舰版:Qwen3.5-397B-A17B(397B 参数,17B 激活)
-
• 📦 中型:Qwen3.5-35B-A3B(35B 参数,3B 激活)
-
• 💡 轻量版:Qwen3.5-27B(27B 参数,纯稠密)
社区反馈显示,Qwen3.5 在本地运行时,量化版本(如 4-bit)几乎无精度损失,适合桌面级硬件。
vLLM:高效推理引擎的幕后英雄
vLLM 由 UC Berkeley 开发,是一个开源高吞吐量 LLM 推理引擎。它通过 PagedAttention 算法优化 KV 缓存管理,避免内存碎片化,支持连续批处理和分布式推理。
相比传统框架,vLLM 能将吞吐量提升数倍,尤其在量化模型上表现突出。在 Aliez Ren 的项目中,vLLM 被用于 RTX 5090 的 NVFP4 量化支持,通过 Patch 充分利用硬件特性,实现速度跃升。
NVFP4 量化:Blackwell 架构的"黑科技"
NVFP4 是 NVIDIA Blackwell GPU(如 RTX 5090)引入的 4-bit 浮点格式,专为高效推理设计。它使用双级缩放策略(E4M3 细粒度缩放 + FP32 标量),在 4-bit 精度下最小化量化误差。
与 MXFP4 相比,NVFP4 将块大小从 32 减至 16,更适应数据动态范围,内存占用减少约 1.6x。在 Qwen3.5 上应用 NVFP4,模型权重从 FP16/FP8 压缩到 4-bit,几乎无精度损失。这让单卡 RTX 5090 能轻松运行大模型,社区测试显示,在 250K 上下文下速度仍达 160 TPS。
RTX 5090:消费级 AI 推理的"性能怪兽"
RTX 5090 是 NVIDIA GeForce RTX 50 系列的旗舰卡,基于 Blackwell 架构。
核心规格:
-
• 🎮 21,760 CUDA 核心
-
• 💾 32GB GDDR7 内存(带宽 1.79 TB/s)
-
• ⚡ 3352 AI TOPS
-
• 🔥 575W TDP
相比 RTX 4090,RTX 5090 在 AI 任务上提升高达 3x,支持 FP4 本地加速。在本地推理中,RTX 5090 能以 112-114 TPS 运行 Qwen3.5-35B-A3B 的 4-bit 版本,甚至在 262K 上下文下不掉速。
🔧 如何上手?一步步指南
硬件准备
-
• RTX 5090 或类似 Blackwell GPU
-
• NVIDIA 驱动 580.x+
-
• Docker + NVIDIA Container Toolkit
安装步骤
-
1. 克隆仓库
git clone https://github.com/aliez-ren/vllm-qwen3.5-nvfp4-sm120 -
2. 配置环境
cd vllm-qwen3.5-nvfp4-sm120 cp .env.example .env设置
HF_TOKEN(Hugging Face 令牌)和缓存路径 -
3. 启动服务
docker compose up -d -
4. 查看日志
docker compose logs -f -
5. 测试 API使用 OpenAI API 客户端调用
localhost:8000,模型路径如Kbenkhaled/Qwen3.5-35B-A3B-NVFP4
注意: 首次加载需 5-10 分钟,Patch 通用,但仅测试 RTX 5090。模型需遵守 Qwen 许可。
📊 性能基准
| 上下文 | 生成速度 | VRAM 占用 | | --- | --- | --- | | 4K | 196 TPS | ~27GB | | 256K | 156 TPS | ~27GB | | 250K | 160 TPS | - |
社区实测反馈:
-
• RTX 3090:Qwen3.5-35B-A3B 达 112 TPS
-
• RTX 4060(8GB):Qwen3.5-9B 达 37 TPS
这些项目填补了 vLLM 对 SM 12.0(RTX 5090)的 FP4 支持空白,未来可能上游合并。
💡 结语:本地 AI 推理的新时代
这个开源 Patch 不只是速度提升,更是消费级硬件 democratize 大模型推理的典范。结合 Qwen3.5 的强大能力和 RTX 5090 的硬件加速,开发者能以更低成本构建代理应用、代码助手或多模态工具。
未来,随着 vLLM 等框架的迭代,类似优化将更普及。如果你有 RTX 5090,不妨试试——或许下一个 AI 突破,就在你的桌面!
欢迎在评论区分享你的运行体验。