A40 显卡2 专用 vLLM 安装文档(附全流程排错指南)
硬件环境: NVIDIA A40(显卡2,显存空间46064MiB)
目标: 在 minicpmo 虚拟环境部署 vLLM 服务,适配 MiniCPM-o 2.6 模型
1. 环境准备
1.1. 确保系统环境符合要求
nvidia-smi
确认 NVIDIA 驱动 版本 ≥ 525.85.05,CUDA 版本 ≥ 11.8。
nvcc --version
确保 CUDA 11.8 或更高。
1.2. 创建并激活 Python 虚拟环境
conda create -n minicpmo python=3.10 -y
conda activate minicpmo
如果没有 Conda,可以使用 venv:
python3 -m venv minicpmo
source minicpmo/bin/activate # Linux/macOS
2. 安装 vLLM
2.1. 安装 PyTorch(需支持 A40)
pip install torch torchvision torchaudio -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
验证:
python -c "import torch; print(torch.cuda.is_available(), torch.cuda.get_device_name(0))"
确保输出 True,且设备名称正确。
2.2. 安装 vLLM
pip install vllm -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
若安装失败,可手动编译:
pip install ninja -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .
3. 下载 MiniCPM-o 2.6
用git:要提前安装 git-lfs
git install lfs git clone www.modelscope.cn/models/Open…
* * *
## **4. 运行 vLLM 推理服务**
openbmb/MiniCPM-O-2_6B 对应上面下载的模型地址
设置 环境变量选择显卡
export CUDA_VISIBLE_DEVICES=1
vllm serve /root/minicpmo/MiniCPM-o-2_6 --dtype auto --max-model-len 2048 --api-key token-SHUXILMSSSDFDA12DADC --gpu_memory_utilization 1 --trust-remote-code
然后使用 API:
import requests response = requests.post( "http://localhost:8000/generate", json={"prompt": "你好,介绍一下你自己?", "max_tokens": 100} ) print(response.json())
* * *
## **5. 常见问题排查**
| 问题 | 可能原因 | 解决方案 |
| ----------------------------------------------------- | ------------------ | ---------------------------------------------------------------------------------- |
| `torch.cuda.is_available()` 返回 `False` | 驱动/CUDA 版本不匹配 | `nvidia-smi` 确保驱动 >= 525.85.05,CUDA >= 11.8 |
| `No module named vllm` | vLLM 未正确安装 | `pip install vllm -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple` |
| `RuntimeError: CUDA out of memory` | 显存不足 | 降低 `gpu-memory-utilization` 或减少 `tensor-parallel-size` |
| `ModuleNotFoundError: No module named 'transformers'` | `transformers` 库缺失 | `pip install transformers -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple` |
* * *
**至此,vLLM 及 MiniCPM-o 2.6B 在 A40(显卡 2)上的安装和推理流程完成!** 🚀