AI模型推理部署 - Mr406的收藏集 - 掘金

AI模型推理部署

更多收藏集

2篇文章 · 0订阅

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

本文是该系列文章的第三篇，作者的观点是：多头注意力（MHA）模型的 KV 缓存确实会消耗大量 GPU 内存，并且很容易增长到比模型权重还大的规模， KV 缓存大小的控制对于优化大模型的推理至关重要。

Baihai_IDP
2年前
2.4k
2
评论

LLM 推理优化探微 (3) ：如何有效控制 KV 缓存的内存占用，优化推理速度？

LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解

本文是该系列文章的第二篇，作者的核心观点是：KV 缓存可以显著减少语言模型的运算量，从而提高其生成文本的效率，但是这种技术并非免费的午餐。

Baihai_IDP
2年前
904
3
评论

LLM 推理优化探微 (2) ：Transformer 模型 KV 缓存技术详解