大模型推理框架 - rins的收藏集 - 掘金

大模型推理框架

更多收藏集

5篇文章 · 0订阅

大模型推理框架（四）TensorRT-LLM

TensorRT-LLM是 NVIDIA 提供的一个用于LLMs在 NVIDIA GPU 上的推理性能的开源库。它通过一系列先进的优化技术，如量化、内核融合、动态批处理和多GPU 支持

真忒修斯之船
9月前
377
4
评论

大模型推理框架（四）TensorRT-LLM

大模型推理框架（三）Text generation inference (TGI)

TGI是一个由Hugging Face开发的用于部署和提供LLMs的框架。它是一个生产级别的工具包，专门设计用于在本地机器上以服务的形式运行大型语言模型

真忒修斯之船
9月前
891
2
评论

大模型推理框架（三）Text generation inference (TGI)

大模型推理框架（二）vLLM

vLLM是一种基于PagedAttention的推理框架，通过分页处理注意力计算，实现了高效、快速和廉价的LLM服务。在推理过程中，将注意力计算分为多个页面，每个页面只计算一部分的注意力分布。

真忒修斯之船
9月前
292
2
评论

大模型推理框架（一）综述

除了分布式推理和支持量化之外，大模型推理框架最大的用处是加速推理。加速推理的主要目的是提高推理效率，减少计算和内存需求，满足实时性要求，降低部署成本

真忒修斯之船
9月前
328
1
评论

大模型训练框架（二）FSDP

FSDP 可以看作是微软 Deepspeed 框架中提出的三种级别的 ZERO 算法中的 `ZERO-3` 的实现。

真忒修斯之船
9月前
473
1
评论