vLLM + Qwen3 快速参考卡（60GB显存专用）🎯 核心推荐 🥇 首选方案：Qwen3-14B (FP16)

您的配置：4卡GPU，每卡15GB显存，总计60GB

🎯 核心推荐

🥇 首选方案：Qwen3-14B (FP16)

# 显存占用：每卡12-13GB（2卡并行）
# 适用场景：生产环境、企业应用、多用户并发
# 稳定性：⭐⭐⭐⭐⭐

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-14B \
    --tensor-parallel-size 2 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 8192 \
    --max-num-seqs 128 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

🥈 备选方案：Qwen3-7B (FP16)

# 显存占用：每卡13-14GB（单卡）
# 适用场景：开发测试、个人项目、快速迭代
# 稳定性：⭐⭐⭐⭐⭐

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-7B \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 16384 \
    --max-num-seqs 256 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

📊 显存计算速查表

模型	精度	总需求	卡数	每卡显存	可行性
Qwen3-7B	FP16	~17GB	1	13-14GB	✅ 推荐
Qwen3-14B	FP16	~34GB	2	12-13GB	✅ 最佳
Qwen3-32B	FP16	~76GB	4	19GB+	❌ 超限
Qwen3-32B	INT4	~20GB	4	6-8GB	✅ 需量化
Qwen3-72B	INT4	~45GB	4	11-12GB	⚠️ 紧张

显存计算公式：

需要显存 = 参数量 × 字节数 × 1.2倍系数
FP16: 2字节/参数
INT4: 0.5字节/参数

🚀 三步快速开始

1️⃣ 安装环境

pip install vllm transformers torch

2️⃣ 下载模型（推荐14B）

# ModelScope（国内快）
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('qwen/Qwen3-14B', cache_dir='./models')"

# 或 Hugging Face
huggingface-cli download Qwen/Qwen3-14B --local-dir ./models/Qwen3-14B

3️⃣ 启动服务

python -m vllm.entrypoints.openai.api_server \
    --model ./models/Qwen3-14B \
    --tensor-parallel-size 2 \
    --gpu-memory-utilization 0.85 \
    --max-model-len 8192 \
    --host 0.0.0.0 \
    --port 8000 \
    --dtype bfloat16 \
    --trust-remote-code

🛠️ 关键参数速查

参数	Qwen3-7B	Qwen3-14B	Qwen3-32B-INT4
`--tensor-parallel-size`	1	2	4
`--gpu-memory-utilization`	0.85	0.85	0.85
`--max-model-len`	16384	8192	4096
`--max-num-seqs`	256	128	64
`--dtype`	bfloat16	bfloat16	half
`--quantization`	-	-	awq

🔧 常见问题快速修复

❌ OOM (显存溢出)

# 降低显存使用率
--gpu-memory-utilization 0.75

# 减少上下文长度
--max-model-len 4096

# 减少并发数
--max-num-seqs 32

❌ 模型加载失败

# 确保添加这个参数（Qwen模型必需）
--trust-remote-code

❌ 多卡不生效

# 检查GPU可见性
nvidia-smi

# 手动指定GPU
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server ...

📞 API调用示例

Curl测试

curl http://localhost:8000/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "./models/Qwen3-14B",
        "prompt": "你好，介绍一下人工智能",
        "max_tokens": 256,
        "temperature": 0.7
    }'

Python调用

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="http://localhost:8000/v1"
)

response = client.chat.completions.create(
    model="./models/Qwen3-14B",
    messages=[
        {"role": "user", "content": "解释一下什么是大语言模型"}
    ],
    temperature=0.7,
    max_tokens=1024
)

print(response.choices[0].message.content)

⚡ 性能预期

模型	配置	首Token延迟	生成速度	并发能力
Qwen3-7B	1卡	~50ms	~100 tok/s	256
Qwen3-14B	2卡	~80ms	~75 tok/s	128
Qwen3-32B-INT4	4卡	~120ms	~50 tok/s	64

⚠️ 重要提醒

❌ 不要尝试 Qwen3-32B FP16 - 肯定OOM
✅ 首选 Qwen3-14B - 最稳定的选择
⚠️ 量化模型需下载专用版本 - 搜索 "Qwen3-32B-AWQ" 或 "Qwen3-32B-GPTQ"
🔍 遇到OOM先降低 gpu-memory-utilization
📊 用 nvidia-smi 监控显存使用

📁 模型下载地址

Qwen3-14B (推荐)

Hugging Face: huggingface.co/Qwen/Qwen3-…
ModelScope: modelscope.cn/models/qwen…

Qwen3-7B (备选)

Hugging Face: huggingface.co/Qwen/Qwen3-…
ModelScope: modelscope.cn/models/qwen…

Qwen3-32B-AWQ (进阶)

Hugging Face: huggingface.co/Qwen/Qwen3-…
ModelScope: 搜索 "Qwen3-32B AWQ"

🎓 学习资源

vLLM文档: docs.vllm.ai/
Qwen文档: qwen.readthedocs.io/
完整指南: 查看同目录下的 vLLM部署Qwen3完整指南.md

记住：Qwen3-14B (2卡) 是您的最佳选择！ 🎯