基础篇| 大模型部署框架01 背景上一篇《基础篇| 全网最全详解12个大模型推理框架》,我们一起学习了推理框架，

01 背景

上一篇《基础篇| 全网最全详解12个大模型推理框架》,我们一起学习了推理框架，今天我们一起学习大模型部署框架。

为什么要有大模型部署框架?

为什么有了推理框架，还要来一个什么部署框架？上节内容我们介绍了有12种大模型推理框架，虽然多，但是现在业界尚不存在各方面都远超其同类产品的推理框架，不同推理引擎在不同平台，硬件和模式下分别具有各自的优势，比如TensorRT有足够多的灵活性，在GPU执行时可以共享上下文，可以使用外部内存用于推理等，OpenVINO有高吞吐率模式，可以CPU与GPU异构设备同时推理。作为应用开发者，为了实现最优效率，如果针对不同环境都写一套代码去适配其最优推理框架，其耗费的学习成本和精力及代码量都将极其巨大。

这时候有大模型部署框架用武之地，大模型部署框架作为一种高效、灵活的部署方式，能够大大提高模型训练和部署的效率，降低模型在部署过程中的时间和成本。

02 部署框架对比

模型部署框架	Xinference	LocalAI	Ollama	FastChat
OpenAI API 接口对齐	支持	支持	支持	支持
加速推理引擎	GPTQ, GGML, vLLM, TensorRT, mlx	GPTQ, GGML, vLLM, TensorRT	GGUF, GGML	vLLM
接入模型类型	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Text-to-Image, Vision	LLM, Vision
Function Call	支持	支持	支持	/
更多平台支持(CPU, Metal)	支持	支持	支持	支持
异构	支持	支持	/	/
集群	支持	支持	/	/
操作文档链接	https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html	https://localai.io/model-compatibility/	https://github.com/ollama/ollama?tab=readme-ov-file#model-library	https://github.com/lm-sys/FastChat#install
可用模型	支持上百种大模型，https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html	https://localai.io/model-compatibility/#/	https://ollama.com/library#/	https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。

有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

感谢您完成阅读

推荐阅读:

基础篇| 全网最全详解12个大模型推理框架

更多合集文章请关注我的公众号，一起学习一起进步：

本文使用文章同步助手同步