【大模型推理部署】：开源大模型推理框架有哪些？大模型经过漫长的训练，最终需要推理评估，走向实际应用。就像人一样，经过多年

本文较长，建议点赞收藏。更多AI大模型应用开发学习视频及资料，在智泊AI。

大模型经过漫长的训练，最终需要推理评估，走向实际应用。就像人一样，经过多年的学习，最终需要通过面试，走向社会工作。

严格意义上，推理引擎和推理框架是不同的，推理引擎是实际执行大模型计算的代码库，提供了推理加速的功能，如PagedAttention、Continuous Batching等。推理框架集成了推理引擎，提供了更加完善的功能，背后实际提供计算的还是推理引擎。但目前业界似乎划分的没有那么明确。

大模型推理部署是大模型走向应用的关键一环，极致优化的推理框架能够缩短延迟、降低成本。

大模型推理技术发展的比较快，目前已有许多开源的大模型推理框架，很多大模型推理框架在2023年出现。

今天给大家介绍一些目前比较主流的大模型推理工具/引擎/框架。

LMStudio、llama.cpp、Ollama、vLLM、SGLang、LMDeploy、Hugging Face TGI、TensorRT-LLM、MLC-LLM、Xinference是比较有代表性的几个。

LM Studio、Ollama属于开箱即用的工具。

llama.cpp、vLLM、SGLang、LMDeploy、Hugging Face TGI、TensorRT-LLM、MLC-LLM、Xinference是推理引擎或者框架。

可以根据应用场景和使用难易程度简单的分为三类：

不会编程的普通用户：LM Studio、Ollama

个人开发者：llama.cpp、Ollama

企业用户：vLLM、SGLang、LMDeploy、TensorRT-LLM、MLC-LLM、Hugging Face TGI、Xinference。

其中使用起来最简单的是LMStudio，提供了图像化界面，即使不会编程也可以轻松使用。

Ollama使用也比较简单，对于普通用户提供了命令行，对于开发者，提供了API。

对于需要部署到生产环境中的企业用户，vLLM、SGLang、LMDeploy、TensorRT-LLM、MLC-LLM、Hugging Face TGI、Xinference这些框架提供了更灵活、可分布式部署的服务。

01 | LM Studio

LM Studio是本地部署大模型的工具，提供了可视化的图形界面，适合没有编程经验的人使用，极大降低了大模型在本地部署的门槛，支持Windows、macOS、Linux系统。LM Studio是一个桌面应用程序，下载安装包安装后即可使用。

官方文档：

lmstudio.ai/docs/

02 | llama.cpp

llama.cpp从其名字就能看出，它是一个使用C/C++进行开发的大模型推理引擎，最初是为了实现LLaMA系列模型的本地高效推理，现在也支持其他的大模型。针对CPU进行了优化，支持低性能硬件，如在笔记本电脑和手机上部署大模型。

核心特点：

通过 ARM NEON、Accelerate 和 Metal 框架进行了优化
支持x86架构AVX、AVX2、AVX512 和 AMX
支持1.5位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，以实现更快的推理和减少内存使用
支持英伟达、AMD、摩尔线程GPU
支持 Vulkan 和 SYCL 后端
CPU 与 GPU 混合推理，以部分加速大于总显存容量的模型

主要使用C/C++开发，所以推理速度很快。

github地址：

github.com/ggml-org/ll…

03 | Ollama

Ollama是构建在llama.cpp上的大模型本地部署工具。支持maxOS/Windows/Linux系统。它支持通过下载软件安装包，以可视化的方式安装，使用起来比较简单，可以把它看作一个软件，安装后通过命令行的方式使用。也支持Docker、python包的方式安装。

主要开发语言为Go。

github地址：

github.com/ollama/olla…

04 | vLLM

vLLM 是一个开源的大模型推理引擎，快速且易于使用。vLLM起源于论文（《Efficient Memory Management for Large Language Model Serving with PagedAttention》），论文中提出了PagedAttention。vLLM 最初由加州大学伯克利分校的Sky Computing Lab开发，如今已发展为一个由开源社区驱动的项目，吸引了来自学术界和工业界的贡献。

核心特点：

PagedAttention
Continuous Batching
通过CUDA/HIP graph实现快速模型执行
GPTQ, AWQ, AutoRound, INT4, INT8, and FP8量化
优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成
Speculative decoding
Chunked prefill

主要开发语言为python。

github地址：

github.com/vllm-projec…

05 | SGLang

SGLang最初是由斯坦福大学和加州大学伯克利分校的团队开源的，是一个高性能的大语言模型和视觉语言模型推理引擎。它旨在在各种环境中提供低延迟和高吞吐量的推理，从单个 GPU 到大型分布式集群。SGLang起源于论文《SGLang: Efficient Execution of Structured Language Model Programs》），论文中提出了RadixAttention，带来了5倍推理速度提升。

SGLang提出的零开销CPU调度（zero-overhead CPU scheduler）降低了CPU的调度开销。

核心特点：

RadixAttention
zero-overhead CPU scheduler
PD分离
speculative decoding
continuous batching
paged attention
tensor/pipeline/expert/data并行
结构化输出
chunked prefill
FP4/FP8/INT4/AWQ/GPTQ量化
multi-LoRA batching

主要开发语言为python，还使用了13.2%的Rust。

github地址：

github.com/sgl-project…

06 | TensorRT-LLM

TensorRT LLM 是由英伟达开源的推理引擎，专门为英伟达GPU设计开发的，用于优化大语言模型（LLM）的推理。它提供了最先进的优化，包括自定义注意力内核、inflight batching、paged KV caching、量化（FP8、FP4、INT4 AWQ、INT8 SmoothQuant 等）、speculative decoding等功能，以高效地在 NVIDIA GPU 上执行推理。

核心特点：