大模型推理加速工具 —— vLLM
vLLM 官网 vllm.ai/
vLLM 官方 Documentation: vllm.readthedocs.io/en/latest/g… Source Code: github.com/vllm-projec…
一、引言
- 前言
随着大语言模型(LLM)的不断发展,这些模型在很大程度上改变了人类使用 AI 的方式。然而,实际上为这些模型提供服务仍然存在挑战,即使在昂贵的硬件上也可能慢得惊人。
现在这种限制正在被打破。最近,来自加州大学伯克利分校的研究者开源了一个项目 vLLM,该项目主要用于快速 LLM 推理和服务。vLLM 的核心是 PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引入到 LLM 服务中。
配备了 PagedAttention 的 vLLM 将 LLM 服务状态重新定义:它比 HuggingFace Transformers 提供高达 24 倍的吞吐量,而无需任何模型架构更改。 - 为什么 需要 vLLM ?
简之,vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注 意力键和值。
配备全新算法的vLLM,重新定义了LLM服务的最新技术水平:
与HuggingFace Transformers相比,它提供高达24倍的吞吐量,而无需进行任何模型架构更改。值得一提的是,「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。
正如研究者所称,vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。
这意味着,未来,即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。 - vLLM 具有哪些特点 ?
- 最先进的服务吞吐量;
- PagedAttention 可以有效的管理注意力的键和值;
- 动态批处理请求;
- 优化好的 CUDA 内核;
- 与流行的 HuggingFace 模型无缝集成;
- 高吞吐量服务与各种解码算法,包括并行采样、beam search 等等;
- 张量并行以支持分布式推理;
- 流输出;
- 兼容 OpenAI 的 API 服务。
- vLLM 支持哪些 Huggingface 模型 ?
- GPT-2 (gpt2、gpt2-xl 等);
- GPTNeoX (EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b 等);
- LLaMA (lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b 等)
- OPT (facebook/opt-66b、facebook/opt-iml-max-30b 等)。
二、vLLM 性能如何?
该研究将 vLLM 的吞吐量与最流行的 LLM 库 HuggingFace Transformers (HF),以及之前具有 SOTA 吞吐量的 HuggingFace Text Generation Inference(TGI)进行了比较。此外,该研究将实验设置分为两种:LLaMA- 7B,硬件为 NVIDIA A10G GPU;另一种为 LLaMA-13B,硬件为 NVIDIA A100 GPU (40GB)。他们从
ShareGPT 数据集中采样输入 / 输出长度。结果表明,vLLM 的吞吐量比 HF 高 24 倍,比 TGI 高 3.5 倍。
vLLM 的吞吐量比 HF 高 14 倍 - 24 倍,比 TGI 高 2.2 倍 - 2.5 倍。
vLLM 的吞吐量比 HF 高 8.5 - 15 倍,比 TGI 高 3.3 - 3.5 倍。
三、vLLM 依赖包
- OS: Linux
- Python: 3.8 or higher
- CUDA: 11.0 – 11.8
- GPU: compute capability 7.0 or higher (e.g., V100, T4, RTX20xx, A100, L4, etc.)
四、vLLM 安装
- conda create -n py310_chat python=3.10 # 创建新环境 source activate py310_chat # 激活环境
构建环境 - vLLM 安装
-
-
使用 pip 安装 vLLM
$ pip install vllm
通过 利用 pip 安装 vllm -
使用 source 安装 vLLM
-
$ git clone github.com/vllm-projec…
$ cd vllm
$ pip install -e . # This may take 5-10 minutes.
通过 从 github上面 clonevllm,并 安装
五、vLLM 使用
- vLLM 离线推理
导包
from vllm import LLM, SamplingParams # 定义 输入 prompt
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]采样温度设置为0.8,原子核采样概率设置为0.95。sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 初始化 vLLM engine
llm = LLM(model="facebook/opt-125m") # 使用 llm.generate 生成结果
outputs = llm.generate(prompts, sampling_params)Print the outputs. 它将输入提示添加到vLLM引擎的等待队列中,并执行vLLM发动机以生成具有高吞吐量的输出。输出作为RequestOutput对象的列表返回,其中包括所有输出标记。
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
在使用 vLLM 进行离线推理任务时,你需要导入 vLLM 并在 Python 脚本中使用 LLM 类。
注:目前 LLMs 并没有支持 所有 LLMs,具体可以查看 supported-models
- vLLM 在线推理
$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3
vLLM可以作为LLM服务进行部署。我们提供了一个FastAPI服务器示例。检查服务器实现的vllm/entrypoints/api_server.py。服务器使用AsyncLLMEngine类来支持异步处理传入请求。 启动 服务
默认情况下,此命令在启动服务器http://localhost:8000OPT-125M型号。 调用服务
curl http://localhost:8000/generate \
-d '{
"prompt": "San Francisco is a",
"use_beam_search": true,
"n": 4,
"temperature": 0
}' - OpenAI-Compatible Server
vLLM可以部署为模仿OpenAI API协议的服务器。这允许vLLM被用作使用OpenAI API的应用程序的插入式替换。
python -m vllm.entrypoints.openai.api_server \
--model facebook/opt-125m
启动 服务
默认情况下,它在启动服务器http://localhost:8000. 可以使用--host和--port参数指定地址。
服务器当前一次承载一个模型(上面命令中的OPT-125M),并实现列表模型和创建完成端点。我们正在积极添 加对更多端点的支持。
$ curl http://localhost:8000/v1/models
此服务器可以使用与 OpenAIAPI相同的格式进行查询。例如,列出 models:
Query the model with input prompts:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "facebook/opt-125m",
"prompt": "San Francisco is a",
"max_tokens": 7,
"temperature": 0
}'
import openai
Modify OpenAI's API key and API base to use vLLM's API server. openai.api_key = "EMPTY"
openai.api_base = "http://localhost:8000/v1"
completion = openai.Completion.create(model="facebook/opt-125m",
prompt="San Francisco is a") print("Completion result:", completion)
由于此服务器与OpenAIAPI兼容,因此可以将其用作任何使用OpenAIAPI的应用程序的临时替代品。例如,查询服务器的另一种方式是通过openaipython包:
六、vLLM 分布式推理与服务
$ pip install ray
vLLM支持分布式张量并行推理和服务。目前,支持 Megatron-LM’stensorparallelalgorithm。使用Ray管理分布式运行时。要运行分布式推理,请使用以下软件安装Ray:
要使用LLM类运行 multi-GPU 推理,请将 tensor_parallel_size 参数设置为要使用的 GPU 数量。例如,要在4个
from vllm import LLM
llm = LLM("facebook/opt-13b", tensor_parallel_size=4)
output = llm.generate("San Franciso is a")
GPU上运行推理:
要运行多GPU服务,请在启动服务器时传入--tensor并行大小参数。例如,要在4个GPU上运行API服务器:
python -m vllm.entrypoints.api_server \
--model facebook/opt-13b \
--tensor-parallel-size 4
On head node
ray start --head
On worker nodes
ray start --address=
要将vLLM扩展到单机之外,请在运行vLLM之前通过CLI启动Ray运行时:
之后,可以在多台机器上运行推理和服务,方法是在head节点上启动vLLM进程,将tensor_paralle_size设置为
GPU数量,即所有机器上的GPU总数。