vLLM + Qwen3 快速参考卡(60GB显存专用)

3 阅读3分钟

您的配置:4卡GPU,每卡15GB显存,总计60GB


🎯 核心推荐

🥇 首选方案:Qwen3-14B (FP16)

# 显存占用:每卡12-13GB(2卡并行)
# 适用场景:生产环境、企业应用、多用户并发
# 稳定性:⭐⭐⭐⭐⭐

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-14B \
    --tensor-parallel-size 2 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 8192 \
    --max-num-seqs 128 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

🥈 备选方案:Qwen3-7B (FP16)

# 显存占用:每卡13-14GB(单卡)
# 适用场景:开发测试、个人项目、快速迭代
# 稳定性:⭐⭐⭐⭐⭐

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-7B \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 16384 \
    --max-num-seqs 256 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

📊 显存计算速查表

模型精度总需求卡数每卡显存可行性
Qwen3-7BFP16~17GB113-14GB推荐
Qwen3-14BFP16~34GB212-13GB最佳
Qwen3-32BFP16~76GB419GB+超限
Qwen3-32BINT4~20GB46-8GB✅ 需量化
Qwen3-72BINT4~45GB411-12GB⚠️ 紧张

显存计算公式

需要显存 = 参数量 × 字节数 × 1.2倍系数
FP16: 2字节/参数
INT4: 0.5字节/参数

🚀 三步快速开始

1️⃣ 安装环境

pip install vllm transformers torch

2️⃣ 下载模型(推荐14B)

# ModelScope(国内快)
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('qwen/Qwen3-14B', cache_dir='./models')"

# 或 Hugging Face
huggingface-cli download Qwen/Qwen3-14B --local-dir ./models/Qwen3-14B

3️⃣ 启动服务

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-14B \
    --tensor-parallel-size 2 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 8192 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

🛠️ 关键参数速查

参数Qwen3-7BQwen3-14BQwen3-32B-INT4
--tensor-parallel-size124
--gpu-memory-utilization0.850.850.85
--max-model-len1638481924096
--max-num-seqs25612864
--dtypebfloat16bfloat16half
--quantization--awq

🔧 常见问题快速修复

❌ OOM (显存溢出)

# 降低显存使用率
--gpu-memory-utilization 0.75

# 减少上下文长度
--max-model-len 4096

# 减少并发数
--max-num-seqs 32

❌ 模型加载失败

# 确保添加这个参数(Qwen模型必需)
--trust-remote-code

❌ 多卡不生效

# 检查GPU可见性
nvidia-smi

# 手动指定GPU
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server ...

📞 API调用示例

Curl测试

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "./models/Qwen3-14B",
        "prompt": "你好,介绍一下人工智能",
        "max_tokens": 256,
        "temperature": 0.7
    }'

Python调用

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1"
)

response = client.chat.completions.create(
    model="./models/Qwen3-14B",
    messages=[
        {"role": "user", "content": "解释一下什么是大语言模型"}
    ],
    temperature=0.7,
    max_tokens=1024
)

print(response.choices[0].message.content)

⚡ 性能预期

模型配置首Token延迟生成速度并发能力
Qwen3-7B1卡~50ms~100 tok/s256
Qwen3-14B2卡~80ms~75 tok/s128
Qwen3-32B-INT44卡~120ms~50 tok/s64

⚠️ 重要提醒

  1. 不要尝试 Qwen3-32B FP16 - 肯定OOM
  2. 首选 Qwen3-14B - 最稳定的选择
  3. ⚠️ 量化模型需下载专用版本 - 搜索 "Qwen3-32B-AWQ" 或 "Qwen3-32B-GPTQ"
  4. 🔍 遇到OOM先降低 gpu-memory-utilization
  5. 📊 用 nvidia-smi 监控显存使用

📁 模型下载地址

Qwen3-14B (推荐)

Qwen3-7B (备选)

Qwen3-32B-AWQ (进阶)


🎓 学习资源


记住:Qwen3-14B (2卡) 是您的最佳选择! 🎯