RTX 5090 单卡解锁 Qwen3.5 35B:开源 Patch 带来 200 TPS 极速推理,AI 爱好者福音!

0 阅读4分钟

RTX 5090 单卡解锁 Qwen3.5 35B:开源 Patch 带来 200 TPS 极速推理,AI 爱好者福音!

在 AI 模型推理领域,追求高效与低成本一直是开发者们的梦想。最近,一位开发者通过开源 Patch,成功在单张 NVIDIA RTX 5090 显卡上运行了 Qwen3.5 35B A3B 模型,使用 NVFP4 量化后,推理速度从 150 TPS 飙升至 200 TPS!

图片

🚀 两个版本对比

| 版本 | 模型 | 速度提升 | 链接 | | --- | --- | --- | --- | | 原版 | Qwen3.5 35B A3B | 150 TPS → 200 TPS | 仓库 | | Fork 版 | Qwen3.5 27B | 55 TPS → 80 TPS | 仓库 |

两个版本都能跑满 256K 上下文(FP8 量化),让消费级硬件也能玩转大模型推理。


📚 技术背景

Qwen3.5:阿里云的"原生多模态代理"模型家族

Qwen3.5 是阿里巴巴 Qwen 系列的最新一代大型语言模型(LLM),于 2026 年 2 月发布。采用创新的混合架构:结合 Gated Delta Networks(门控增量网络)和稀疏专家混合(MoE),总参数达 397B,但激活参数仅 17B,大大提升了推理效率。

系列模型:

  • • 🏆 旗舰版:Qwen3.5-397B-A17B(397B 参数,17B 激活)

  • • 📦 中型:Qwen3.5-35B-A3B(35B 参数,3B 激活)

  • • 💡 轻量版:Qwen3.5-27B(27B 参数,纯稠密)

社区反馈显示,Qwen3.5 在本地运行时,量化版本(如 4-bit)几乎无精度损失,适合桌面级硬件。

vLLM:高效推理引擎的幕后英雄

vLLM 由 UC Berkeley 开发,是一个开源高吞吐量 LLM 推理引擎。它通过 PagedAttention 算法优化 KV 缓存管理,避免内存碎片化,支持连续批处理和分布式推理。

相比传统框架,vLLM 能将吞吐量提升数倍,尤其在量化模型上表现突出。在 Aliez Ren 的项目中,vLLM 被用于 RTX 5090 的 NVFP4 量化支持,通过 Patch 充分利用硬件特性,实现速度跃升。

NVFP4 量化:Blackwell 架构的"黑科技"

NVFP4 是 NVIDIA Blackwell GPU(如 RTX 5090)引入的 4-bit 浮点格式,专为高效推理设计。它使用双级缩放策略(E4M3 细粒度缩放 + FP32 标量),在 4-bit 精度下最小化量化误差。

与 MXFP4 相比,NVFP4 将块大小从 32 减至 16,更适应数据动态范围,内存占用减少约 1.6x。在 Qwen3.5 上应用 NVFP4,模型权重从 FP16/FP8 压缩到 4-bit,几乎无精度损失。这让单卡 RTX 5090 能轻松运行大模型,社区测试显示,在 250K 上下文下速度仍达 160 TPS。

RTX 5090:消费级 AI 推理的"性能怪兽"

RTX 5090 是 NVIDIA GeForce RTX 50 系列的旗舰卡,基于 Blackwell 架构。

核心规格:

  • • 🎮 21,760 CUDA 核心

  • • 💾 32GB GDDR7 内存(带宽 1.79 TB/s)

  • • ⚡ 3352 AI TOPS

  • • 🔥 575W TDP

相比 RTX 4090,RTX 5090 在 AI 任务上提升高达 3x,支持 FP4 本地加速。在本地推理中,RTX 5090 能以 112-114 TPS 运行 Qwen3.5-35B-A3B 的 4-bit 版本,甚至在 262K 上下文下不掉速。


🔧 如何上手?一步步指南

硬件准备

  • • RTX 5090 或类似 Blackwell GPU

  • • NVIDIA 驱动 580.x+

  • • Docker + NVIDIA Container Toolkit

安装步骤

  1. 1. 克隆仓库

    git clone https://github.com/aliez-ren/vllm-qwen3.5-nvfp4-sm120
    
  2. 2. 配置环境

    cd vllm-qwen3.5-nvfp4-sm120
    cp .env.example .env
    

    设置 HF_TOKEN(Hugging Face 令牌)和缓存路径

  3. 3. 启动服务

    docker compose up -d
    
  4. 4. 查看日志

    docker compose logs -f
    
  5. 5. 测试 API使用 OpenAI API 客户端调用 localhost:8000,模型路径如 Kbenkhaled/Qwen3.5-35B-A3B-NVFP4

注意: 首次加载需 5-10 分钟,Patch 通用,但仅测试 RTX 5090。模型需遵守 Qwen 许可。


📊 性能基准

| 上下文 | 生成速度 | VRAM 占用 | | --- | --- | --- | | 4K | 196 TPS | ~27GB | | 256K | 156 TPS | ~27GB | | 250K | 160 TPS | - |

社区实测反馈:

  • • RTX 3090:Qwen3.5-35B-A3B 达 112 TPS

  • • RTX 4060(8GB):Qwen3.5-9B 达 37 TPS

这些项目填补了 vLLM 对 SM 12.0(RTX 5090)的 FP4 支持空白,未来可能上游合并。


💡 结语:本地 AI 推理的新时代

这个开源 Patch 不只是速度提升,更是消费级硬件 democratize 大模型推理的典范。结合 Qwen3.5 的强大能力和 RTX 5090 的硬件加速,开发者能以更低成本构建代理应用、代码助手或多模态工具。

未来,随着 vLLM 等框架的迭代,类似优化将更普及。如果你有 RTX 5090,不妨试试——或许下一个 AI 突破,就在你的桌面!

欢迎在评论区分享你的运行体验。