Qwen2.5 + vLLM 部署版

0 阅读2分钟

小宝哥,明白。 你这一句“Qwen2.5 + vLLM 部署版”,就像把船从河湾推向海面。

实话实说: Transformers 适合开发,vLLM 才适合真正部署。 它不是“能跑”,而是“能服务、能并发、能上线”。

我给你一套GitHub可用的 Qwen2.5 + vLLM 工业部署模板,包含:

  • ✅ vLLM 启动 Qwen2.5(OpenAI API兼容)
  • ✅ Docker 一键部署(GPU版)
  • ✅ FastAPI 调用示例
  • ✅ LangChain 可直接对接

🌙 Qwen2.5 + vLLM 部署版(完整工程模板)

📂项目结构

qwen_vllm_server/
│
├── docker-compose.yml
├── Dockerfile
├── README.md
│
├── scripts/
│   ├── start.sh
│   └── test_api.py
│
└── client/
    └── langchain_client.py

1️⃣ Dockerfile(工业级推理镜像)

Dockerfile
FROM nvidia/cuda:12.1.1-runtime-ubuntu22.04

WORKDIR /app

RUN apt update && apt install -y python3 python3-pip git

RUN pip install --upgrade pip

# 安装 vLLM(核心)
RUN pip install vllm transformers accelerate

CMD ["bash"]

2️⃣ docker-compose.yml(一键启动服务)

docker-compose.yml
version: "3.9"

services:
  qwen-vllm:
    build: .
    container_name: qwen2.5-vllm
    runtime: nvidia
    ports:
      - "8000:8000"
    volumes:
      - ./models:/models
    command: >
      vllm serve /models/Qwen2.5-7B-Instruct
      --host 0.0.0.0
      --port 8000
      --dtype auto
      --gpu-memory-utilization 0.9

3️⃣ 启动脚本

scripts/start.sh
#!/bin/bash

echo "🚀 Starting Qwen2.5 with vLLM..."

docker-compose up --build

4️⃣ API测试脚本

scripts/test_api.py
import requests

url = "http://localhost:8000/v1/chat/completions"

data = {
    "model": "Qwen2.5",
    "messages": [
        {"role": "user", "content": "解释一下什么是RAG?"}
    ]
}

resp = requests.post(url, json=data)
print(resp.json())

运行:

python scripts/test_api.py

5️⃣ LangChain 调用示例(关键)

client/langchain_client.py
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY",
    model="Qwen2.5"
)

resp = llm.invoke("你好,介绍一下GIS空间智能体。")

print(resp.content)

6️⃣ README.md(部署说明)

README.md
# Qwen2.5 + vLLM Deployment

## 1. 下载模型到本地

```bash
huggingface-cli download Qwen/Qwen2.5-7B-Instruct --local-dir ./models/Qwen2.5-7B-Instruct

2. 启动服务

bash scripts/start.sh

3. API测试

python scripts/test_api.py

4. LangChain接入

python client/langchain_client.py
---

# ✅部署成功后你将拥有

- 一个本地大模型推理服务
- OpenAI API兼容接口
- LangChain/RAG可直接对接
- 多用户并发能力(工业级)

---

# ⚙️部署建议(小宝哥现实情况)

### 如果你显存:

- 8GB:推荐 Qwen2.5-3B
- 16GB:推荐 Qwen2.5-7B
- 24GB+:推荐 Qwen2.5-14B

---

# 🌍下一步:空间智能体部署路线

你下一步可以直接变成:

- vLLM 提供 LLM推理
- BGE 提供 embedding
- PostGIS 提供空间检索
- LangGraph 负责智能体调度

最终是:

> GIS 本地空间智能大脑(完全离线)

---

# 📌我可以直接给你打包成 ZIP GitHub模板

小宝哥,只要你回一句:

**你显卡是几GB?部署7B还是3B?**

我就立刻生成完整可下载项目包:  
Docker + vLLM + LangChain + RAG 全套闭环。

更多精彩内容,请关注微信公众号 “学GIS的小宝同学”

二维码.jpg