大模型推理加速工具 —— vLLM大模型推理加速工具 —— vLLM vLLM 官网 https://vllm.ai/

大模型推理加速工具 —— vLLM

vLLM 官网 vllm.ai/

vLLM 官方 Documentation: vllm.readthedocs.io/en/latest/g… Source Code: github.com/vllm-projec…

一、引言

前言
随着大语言模型（LLM）的不断发展，这些模型在很大程度上改变了人类使用 AI 的方式。然而，实际上为这些模型提供服务仍然存在挑战，即使在昂贵的硬件上也可能慢得惊人。
现在这种限制正在被打破。最近，来自加州大学伯克利分校的研究者开源了一个项目 vLLM，该项目主要用于快速 LLM 推理和服务。vLLM 的核心是 PagedAttention，这是一种新颖的注意力算法，它将在操作系统的虚拟内存中分页的经典思想引入到 LLM 服务中。
配备了 PagedAttention 的 vLLM 将 LLM 服务状态重新定义：它比 HuggingFace Transformers 提供高达 24 倍的吞吐量，而无需任何模型架构更改。
为什么需要 vLLM ?
简之，vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。
配备全新算法的vLLM，重新定义了LLM服务的最新技术水平：
与HuggingFace Transformers相比，它提供高达24倍的吞吐量，而无需进行任何模型架构更改。值得一提的是，「小羊驼」Vicuna在demo中用到的就是FastChat和vLLM的一个集成。
正如研究者所称，vLLM最大的优势在于——提供易用、快速、便宜的LLM服务。
这意味着，未来，即使对于像LMSYS这样计算资源有限的小型研究团队也能轻松部署自己的LLM服务。
vLLM 具有哪些特点 ?

最先进的服务吞吐量；
PagedAttention 可以有效的管理注意力的键和值；
动态批处理请求；
优化好的 CUDA 内核；
与流行的 HuggingFace 模型无缝集成；
高吞吐量服务与各种解码算法，包括并行采样、beam search 等等；
张量并行以支持分布式推理；
流输出；
兼容 OpenAI 的 API 服务。

vLLM 支持哪些 Huggingface 模型 ?

GPT-2 (gpt2、gpt2-xl 等)；
GPTNeoX (EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b 等)；
LLaMA (lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b 等)
OPT (facebook/opt-66b、facebook/opt-iml-max-30b 等)。

二、vLLM 性能如何？
该研究将 vLLM 的吞吐量与最流行的 LLM 库 HuggingFace Transformers （HF），以及之前具有 SOTA 吞吐量的 HuggingFace Text Generation Inference（TGI）进行了比较。此外，该研究将实验设置分为两种：LLaMA- 7B，硬件为 NVIDIA A10G GPU；另一种为 LLaMA-13B，硬件为 NVIDIA A100 GPU (40GB)。他们从

ShareGPT 数据集中采样输入 / 输出长度。结果表明，vLLM 的吞吐量比 HF 高 24 倍，比 TGI 高 3.5 倍。
vLLM 的吞吐量比 HF 高 14 倍 - 24 倍，比 TGI 高 2.2 倍 - 2.5 倍。

vLLM 的吞吐量比 HF 高 8.5 - 15 倍，比 TGI 高 3.3 - 3.5 倍。
三、vLLM 依赖包

OS: Linux
Python: 3.8 or higher
CUDA: 11.0 – 11.8
GPU: compute capability 7.0 or higher (e.g., V100, T4, RTX20xx, A100, L4, etc.)

四、vLLM 安装

$conda create -n py310_chat python=3.10 # 创建新环境$ source activate py310_chat # 激活环境
构建环境
vLLM 安装
1. 使用 pip 安装 vLLM
  $ pip install vllm
  通过利用 pip 安装 vllm
2. 使用 source 安装 vLLM

$ git clone github.com/vllm-projec…

$ cd vllm

$ pip install -e . # This may take 5-10 minutes.

通过从 github上面 clonevllm，并安装

五、vLLM 使用

vLLM 离线推理
导包
from vllm import LLM, SamplingParams # 定义输入 prompt
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
采样温度设置为0.8，原子核采样概率设置为0.95。sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 初始化 vLLM engine
llm = LLM(model="facebook/opt-125m") # 使用 llm.generate 生成结果
outputs = llm.generate(prompts, sampling_params)
Print the outputs. 它将输入提示添加到vLLM引擎的等待队列中，并执行vLLM发动机以生成具有高吞吐量的输出。输出作为RequestOutput对象的列表返回，其中包括所有输出标记。
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
在使用 vLLM 进行离线推理任务时，你需要导入 vLLM 并在 Python 脚本中使用 LLM 类。
注：目前 LLMs 并没有支持所有 LLMs，具体可以查看 supported-models

vLLM 在线推理
$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3
vLLM可以作为LLM服务进行部署。我们提供了一个FastAPI服务器示例。检查服务器实现的vllm/entrypoints/api_server.py。服务器使用AsyncLLMEngine类来支持异步处理传入请求。启动服务
默认情况下，此命令在启动服务器http://localhost:8000OPT-125M型号。调用服务
curl http://localhost:8000/generate \
-d '{
"prompt": "San Francisco is a",
"use_beam_search": true,
"n": 4,
"temperature": 0
}'
OpenAI-Compatible Server

vLLM可以部署为模仿OpenAI API协议的服务器。这允许vLLM被用作使用OpenAI API的应用程序的插入式替换。

python -m vllm.entrypoints.openai.api_server \

--model facebook/opt-125m

启动服务

默认情况下，它在启动服务器http://localhost:8000. 可以使用--host和--port参数指定地址。

服务器当前一次承载一个模型（上面命令中的OPT-125M），并实现列表模型和创建完成端点。我们正在积极添加对更多端点的支持。

$ curl http://localhost:8000/v1/models

此服务器可以使用与 OpenAIAPI相同的格式进行查询。例如，列出 models:

Query the model with input prompts:

curl http://localhost:8000/v1/completions \

-H "Content-Type: application/json" \

-d '{

"model": "facebook/opt-125m",

"prompt": "San Francisco is a",

"max_tokens": 7,

"temperature": 0

import openai

Modify OpenAI's API key and API base to use vLLM's API server. openai.api_key = "EMPTY"

openai.api_base = "http://localhost:8000/v1"

completion = openai.Completion.create(model="facebook/opt-125m",

prompt="San Francisco is a") print("Completion result:", completion)

由于此服务器与OpenAIAPI兼容，因此可以将其用作任何使用OpenAIAPI的应用程序的临时替代品。例如，查询服务器的另一种方式是通过openaipython包：

六、vLLM 分布式推理与服务

$ pip install ray

vLLM支持分布式张量并行推理和服务。目前，支持 Megatron-LM’stensorparallelalgorithm。使用Ray管理分布式运行时。要运行分布式推理，请使用以下软件安装Ray：

要使用LLM类运行 multi-GPU 推理，请将 tensor_parallel_size 参数设置为要使用的 GPU 数量。例如，要在4个

from vllm import LLM

llm = LLM("facebook/opt-13b", tensor_parallel_size=4)

output = llm.generate("San Franciso is a")

GPU上运行推理：

要运行多GPU服务，请在启动服务器时传入--tensor并行大小参数。例如，要在4个GPU上运行API服务器：

python -m vllm.entrypoints.api_server \

--model facebook/opt-13b \

--tensor-parallel-size 4

On head node

ray start --head

On worker nodes

ray start --address=

要将vLLM扩展到单机之外，请在运行vLLM之前通过CLI启动Ray运行时：

之后，可以在多台机器上运行推理和服务，方法是在head节点上启动vLLM进程，将tensor_paralle_size设置为

GPU数量，即所有机器上的GPU总数。

大模型推理加速工具 —— vLLM