您的配置:4卡GPU,每卡15GB显存,总计60GB
🎯 核心推荐
🥇 首选方案:Qwen3-14B (FP16)
# 显存占用:每卡12-13GB(2卡并行)
# 适用场景:生产环境、企业应用、多用户并发
# 稳定性:⭐⭐⭐⭐⭐
python -m vllm.entrypoints.openai.api_server \
--model ./models/Qwen3-14B \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.85 \
--max-model-len 8192 \
--max-num-seqs 128 \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--trust-remote-code
🥈 备选方案:Qwen3-7B (FP16)
# 显存占用:每卡13-14GB(单卡)
# 适用场景:开发测试、个人项目、快速迭代
# 稳定性:⭐⭐⭐⭐⭐
python -m vllm.entrypoints.openai.api_server \
--model ./models/Qwen3-7B \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.85 \
--max-model-len 16384 \
--max-num-seqs 256 \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--trust-remote-code
📊 显存计算速查表
| 模型 | 精度 | 总需求 | 卡数 | 每卡显存 | 可行性 |
|---|---|---|---|---|---|
| Qwen3-7B | FP16 | ~17GB | 1 | 13-14GB | ✅ 推荐 |
| Qwen3-14B | FP16 | ~34GB | 2 | 12-13GB | ✅ 最佳 |
| Qwen3-32B | FP16 | ~76GB | 4 | 19GB+ | ❌ 超限 |
| Qwen3-32B | INT4 | ~20GB | 4 | 6-8GB | ✅ 需量化 |
| Qwen3-72B | INT4 | ~45GB | 4 | 11-12GB | ⚠️ 紧张 |
显存计算公式:
需要显存 = 参数量 × 字节数 × 1.2倍系数
FP16: 2字节/参数
INT4: 0.5字节/参数
🚀 三步快速开始
1️⃣ 安装环境
pip install vllm transformers torch
2️⃣ 下载模型(推荐14B)
# ModelScope(国内快)
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('qwen/Qwen3-14B', cache_dir='./models')"
# 或 Hugging Face
huggingface-cli download Qwen/Qwen3-14B --local-dir ./models/Qwen3-14B
3️⃣ 启动服务
python -m vllm.entrypoints.openai.api_server \
--model ./models/Qwen3-14B \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.85 \
--max-model-len 8192 \
--host 0.0.0.0 \
--port 8000 \
--dtype bfloat16 \
--trust-remote-code
🛠️ 关键参数速查
| 参数 | Qwen3-7B | Qwen3-14B | Qwen3-32B-INT4 |
|---|---|---|---|
--tensor-parallel-size | 1 | 2 | 4 |
--gpu-memory-utilization | 0.85 | 0.85 | 0.85 |
--max-model-len | 16384 | 8192 | 4096 |
--max-num-seqs | 256 | 128 | 64 |
--dtype | bfloat16 | bfloat16 | half |
--quantization | - | - | awq |
🔧 常见问题快速修复
❌ OOM (显存溢出)
# 降低显存使用率
--gpu-memory-utilization 0.75
# 减少上下文长度
--max-model-len 4096
# 减少并发数
--max-num-seqs 32
❌ 模型加载失败
# 确保添加这个参数(Qwen模型必需)
--trust-remote-code
❌ 多卡不生效
# 检查GPU可见性
nvidia-smi
# 手动指定GPU
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m vllm.entrypoints.openai.api_server ...
📞 API调用示例
Curl测试
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "./models/Qwen3-14B",
"prompt": "你好,介绍一下人工智能",
"max_tokens": 256,
"temperature": 0.7
}'
Python调用
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="http://localhost:8000/v1"
)
response = client.chat.completions.create(
model="./models/Qwen3-14B",
messages=[
{"role": "user", "content": "解释一下什么是大语言模型"}
],
temperature=0.7,
max_tokens=1024
)
print(response.choices[0].message.content)
⚡ 性能预期
| 模型 | 配置 | 首Token延迟 | 生成速度 | 并发能力 |
|---|---|---|---|---|
| Qwen3-7B | 1卡 | ~50ms | ~100 tok/s | 256 |
| Qwen3-14B | 2卡 | ~80ms | ~75 tok/s | 128 |
| Qwen3-32B-INT4 | 4卡 | ~120ms | ~50 tok/s | 64 |
⚠️ 重要提醒
- ❌ 不要尝试 Qwen3-32B FP16 - 肯定OOM
- ✅ 首选 Qwen3-14B - 最稳定的选择
- ⚠️ 量化模型需下载专用版本 - 搜索 "Qwen3-32B-AWQ" 或 "Qwen3-32B-GPTQ"
- 🔍 遇到OOM先降低 gpu-memory-utilization
- 📊 用 nvidia-smi 监控显存使用
📁 模型下载地址
Qwen3-14B (推荐)
- Hugging Face: huggingface.co/Qwen/Qwen3-…
- ModelScope: modelscope.cn/models/qwen…
Qwen3-7B (备选)
- Hugging Face: huggingface.co/Qwen/Qwen3-…
- ModelScope: modelscope.cn/models/qwen…
Qwen3-32B-AWQ (进阶)
- Hugging Face: huggingface.co/Qwen/Qwen3-…
- ModelScope: 搜索 "Qwen3-32B AWQ"
🎓 学习资源
- vLLM文档: docs.vllm.ai/
- Qwen文档: qwen.readthedocs.io/
- 完整指南: 查看同目录下的
vLLM部署Qwen3完整指南.md
记住:Qwen3-14B (2卡) 是您的最佳选择! 🎯