基础篇| 大模型部署框架

701 阅读2分钟

01 背 景

上一篇《基础篇| 全网最全详解12个大模型推理框架》,我们一起学习了推理框架 , 今天我们一起学习大模型部署框架。

为什么要有大模型部署框架?

为什么有了推理框架,还要来一个什么部署框架?上节内容我们介绍了有12种大模型推理框架,虽然多,但是现在业界尚不存在各方面都远超其同类产品的推理框架,不同推理引擎在不同平台,硬件和模式下分别具有各自的优势,比如TensorRT有足够多的灵活性,在GPU执行时可以共享上下文,可以使用外部内存用于推理等,OpenVINO有高吞吐率模式,可以CPU与GPU异构设备同时推理。作为应用开发者,为了实现最优效率,如果针对不同环境都写一套代码去适配其最优推理框架,其耗费的学习成本和精力及代码量都将极其巨大。

这时候有大模型部署框架用武之地,大模型部署框架作为一种高效、灵活的部署方式,能够大大提高模型训练和部署的效率,降低模型在部署过程中的时间和成本。

02 部署框架对比

模型部署框架XinferenceLocalAIOllamaFastChat
OpenAI API 接口对齐支持支持支持支持
加速推理引擎GPTQ, GGML, vLLM, TensorRT, mlxGPTQ, GGML, vLLM, TensorRTGGUF, GGMLvLLM
接入模型类型LLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Text-to-Image, VisionLLM, Vision
Function Call支持支持支持/
更多平台支持(CPU, Metal)支持支持支持支持
异构支持支持//
集群支持支持//
操作文档链接https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/https://github.com/ollama/ollama?tab=readme-ov-file#model-libraryhttps://github.com/lm-sys/FastChat#install
可用模型支持上百种大模型,https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/#/https://ollama.com/library#/https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。

有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

感谢您完成阅读

图片

图片

图片

推荐阅读:

基础篇|  全网最全详解12个大模型推理框架

更多合集文章请关注我的公众号,一起学习一起进步:

图片

本文使用 文章同步助手 同步