kvcache - 敩科炼技堂的收藏集 - 掘金

kvcache

敩科炼技堂

更多收藏集

3篇文章 · 0订阅

大模型低显存推理优化-Offload技术

由于 GPU 资源稀缺和昂贵，一定程度上使得大模型的应用和普及变得困难。因此，本文从大模型推理部署出发，介绍了一些低硬件成本（消费级GPU、CPU等）部署大模型的方法，并着重介绍了低显存推理优化技术O

吃果冻不吐果冻皮
1年前
4.6k
17
1

大模型推理服务调度优化技术-Continuous batching

近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。

吃果冻不吐果冻皮
1年前
3.1k
10
评论

大模型推理优化技术-KV Cache

近两年大模型火出天际；同时，也诞生了大量针对大模型的优化技术。本系列将针对一些常见大模型优化技术进行讲解。

吃果冻不吐果冻皮
1年前
11k
15
3