RTX 5090 单卡解锁 Qwen3.5 35B：开源 Patch 带来 200 TPS 极速推理，AI 爱好者福音！

在 AI 模型推理领域，追求高效与低成本一直是开发者们的梦想。最近，一位开发者通过开源 Patch，成功在单张 NVIDIA RTX 5090 显卡上运行了 Qwen3.5 35B A3B 模型，使用 NVFP4 量化后，推理速度从 150 TPS 飙升至 200 TPS！

🚀 两个版本对比

| 版本 | 模型 | 速度提升 | 链接 | | --- | --- | --- | --- | | 原版 | Qwen3.5 35B A3B | 150 TPS → 200 TPS | 仓库 | | Fork 版 | Qwen3.5 27B | 55 TPS → 80 TPS | 仓库 |

两个版本都能跑满 256K 上下文（FP8 量化），让消费级硬件也能玩转大模型推理。

📚 技术背景

Qwen3.5：阿里云的"原生多模态代理"模型家族

Qwen3.5 是阿里巴巴 Qwen 系列的最新一代大型语言模型（LLM），于 2026 年 2 月发布。采用创新的混合架构：结合 Gated Delta Networks（门控增量网络）和稀疏专家混合（MoE），总参数达 397B，但激活参数仅 17B，大大提升了推理效率。

系列模型：

• 🏆 旗舰版：Qwen3.5-397B-A17B（397B 参数，17B 激活）
• 📦 中型：Qwen3.5-35B-A3B（35B 参数，3B 激活）
• 💡 轻量版：Qwen3.5-27B（27B 参数，纯稠密）

社区反馈显示，Qwen3.5 在本地运行时，量化版本（如 4-bit）几乎无精度损失，适合桌面级硬件。

vLLM：高效推理引擎的幕后英雄

vLLM 由 UC Berkeley 开发，是一个开源高吞吐量 LLM 推理引擎。它通过 PagedAttention 算法优化 KV 缓存管理，避免内存碎片化，支持连续批处理和分布式推理。

相比传统框架，vLLM 能将吞吐量提升数倍，尤其在量化模型上表现突出。在 Aliez Ren 的项目中，vLLM 被用于 RTX 5090 的 NVFP4 量化支持，通过 Patch 充分利用硬件特性，实现速度跃升。

NVFP4 量化：Blackwell 架构的"黑科技"

NVFP4 是 NVIDIA Blackwell GPU（如 RTX 5090）引入的 4-bit 浮点格式，专为高效推理设计。它使用双级缩放策略（E4M3 细粒度缩放 + FP32 标量），在 4-bit 精度下最小化量化误差。

与 MXFP4 相比，NVFP4 将块大小从 32 减至 16，更适应数据动态范围，内存占用减少约 1.6x。在 Qwen3.5 上应用 NVFP4，模型权重从 FP16/FP8 压缩到 4-bit，几乎无精度损失。这让单卡 RTX 5090 能轻松运行大模型，社区测试显示，在 250K 上下文下速度仍达 160 TPS。

RTX 5090：消费级 AI 推理的"性能怪兽"

RTX 5090 是 NVIDIA GeForce RTX 50 系列的旗舰卡，基于 Blackwell 架构。

核心规格：

• 🎮 21,760 CUDA 核心
• 💾 32GB GDDR7 内存（带宽 1.79 TB/s）
• ⚡ 3352 AI TOPS
• 🔥 575W TDP

相比 RTX 4090，RTX 5090 在 AI 任务上提升高达 3x，支持 FP4 本地加速。在本地推理中，RTX 5090 能以 112-114 TPS 运行 Qwen3.5-35B-A3B 的 4-bit 版本，甚至在 262K 上下文下不掉速。

🔧 如何上手？一步步指南

硬件准备

• RTX 5090 或类似 Blackwell GPU
• NVIDIA 驱动 580.x+
• Docker + NVIDIA Container Toolkit

安装步骤

1. 克隆仓库

git clone https://github.com/aliez-ren/vllm-qwen3.5-nvfp4-sm120

2. 配置环境
```
cd vllm-qwen3.5-nvfp4-sm120
cp .env.example .env
```
设置 HF_TOKEN（Hugging Face 令牌）和缓存路径
3. 启动服务
```
docker compose up -d
```
4. 查看日志
```
docker compose logs -f
```
5. 测试 API使用 OpenAI API 客户端调用 localhost:8000，模型路径如 Kbenkhaled/Qwen3.5-35B-A3B-NVFP4

注意： 首次加载需 5-10 分钟，Patch 通用，但仅测试 RTX 5090。模型需遵守 Qwen 许可。

📊 性能基准

| 上下文 | 生成速度 | VRAM 占用 | | --- | --- | --- | | 4K | 196 TPS | ~27GB | | 256K | 156 TPS | ~27GB | | 250K | 160 TPS | - |

社区实测反馈：

• RTX 3090：Qwen3.5-35B-A3B 达 112 TPS
• RTX 4060（8GB）：Qwen3.5-9B 达 37 TPS

这些项目填补了 vLLM 对 SM 12.0（RTX 5090）的 FP4 支持空白，未来可能上游合并。

💡 结语：本地 AI 推理的新时代

这个开源 Patch 不只是速度提升，更是消费级硬件 democratize 大模型推理的典范。结合 Qwen3.5 的强大能力和 RTX 5090 的硬件加速，开发者能以更低成本构建代理应用、代码助手或多模态工具。

未来，随着 vLLM 等框架的迭代，类似优化将更普及。如果你有 RTX 5090，不妨试试——或许下一个 AI 突破，就在你的桌面！

欢迎在评论区分享你的运行体验。