首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大模型推理框架
订阅
rins
更多收藏集
微信扫码分享
微信
新浪微博
QQ
5篇文章 · 0订阅
大模型推理框架(四)TensorRT-LLM
TensorRT-LLM是 NVIDIA 提供的一个用于LLMs在 NVIDIA GPU 上的推理性能的开源库。它通过一系列先进的优化技术,如量化、内核融合、动态批处理和多GPU 支持
大模型推理框架(三)Text generation inference (TGI)
TGI是一个由Hugging Face开发的用于部署和提供LLMs的框架。它是一个生产级别的工具包,专门设计用于在本地机器上以服务的形式运行大型语言模型
大模型推理框架(二)vLLM
vLLM是一种基于PagedAttention的推理框架,通过分页处理注意力计算,实现了高效、快速和廉价的LLM服务。在推理过程中,将注意力计算分为多个页面,每个页面只计算一部分的注意力分布。
大模型推理框架(一)综述
除了分布式推理和支持量化之外,大模型推理框架最大的用处是加速推理。加速推理的主要目的是提高推理效率,减少计算和内存需求,满足实时性要求,降低部署成本
大模型训练框架(二)FSDP
FSDP 可以看作是微软 Deepspeed 框架中提出的三种级别的 ZERO 算法中的 `ZERO-3` 的实现。