大模型相关

大模型相关

大模型相关

大模型越来越火，做的事情也和大模型有些关系，顺带学一学

等 1 人订阅共4篇文章创建于2025-08-23

sglang(1)：开发环境搭建

0. 简介 sglang是一个高性能的大语言模型和视觉-语言模型服务框架。它旨在从单 GPU 到大型分布式集群等各类部署环境中提供低延迟、高吞吐量的推理服务。在通过nano-vllm系列针对推理的

16天前
103
1
评论

sglang(1)：开发环境搭建

nano-vllm(3)：Continuous Batching

0. 概念 0.1 为什么需要批处理 LLM以自回归方式进行decode，而decode阶段是典型的数据密集型的计算方式，如果GPU调度时每次只计算一个Sequence，只生成一个token，那简直就

25天前
89
点赞
评论

nano-vllm(3)：Continuous Batching

nano-vllm(2)：KV Cache、PagedAttention和nano-vllm的实现

0. 什么是KV Cache 在0. nano-vllm：大模型推理原理和流程中我们阐述了大语言模型作为一种自回归模型的基本工作流程，其主要工作阶段分为： prefill阶段：模型处理全部的Promp

29天前
127
点赞
评论

nano-vllm(2)：KV Cache、PagedAttention和nano-vllm的实现

nano-vllm(1)：大模型推理原理和流程

0. 简介 LLM：就是大语言模型，指参数量较大且具有较强生成能力的语言模型。 vLLM：功能完备的生产级大语言模型推理引擎。 nano-vllm：是vLLM的极简教学版实现，代码只有1200行左右。

1月前
212
1
评论

nano-vllm(1)：大模型推理原理和流程