vLLM内核探秘

vLLM内核探秘

vLLM内核探秘

vLLM内核探秘

等 4 人订阅共19篇文章创建于2026-04-16

vLLM内核探秘-第6章 Worker 与 Executor：GPU 军团

第6章 Worker 与 Executor：GPU 军团 :::tip 本章要点理解 Executor 的抽象层设计：为什么要在 EngineCore 和 Worker 之间加一层掌握三种 Exe

2月前
118
1
评论

vLLM内核探秘-第17章 API 服务器与生产部署

第17章 API 服务器与生产部署 :::tip 本章要点理解 OpenAI 兼容 API 的实现：endpoint 映射与参数转换掌握流式输出（SSE）的实现机制深入生产部署的关键配置：ten

2月前
155
1
评论

vLLM内核探秘-第4章 PagedAttention：虚拟内存的启示

第4章 PagedAttention：虚拟内存的启示 :::tip 本章要点理解 KV Cache 内存碎片问题的本质：为什么传统方案浪费 60-80% 的显存从操作系统的虚拟内存机制类比理解 P

2月前
144
2
评论

vLLM内核探秘-第7章模型加载与权重管理

第7章模型加载与权重管理 :::tip 本章要点理解模型加载的三阶段流水线：发现 → 加载 → 分配深入 BaseModelLoader 的策略模式：8 种加载器适配不同场景掌握 _prepa

2月前
148
1
评论

vLLM内核探秘-第9章采样与输出处理

第9章采样与输出处理 :::tip 本章要点理解 Logits 到 Token 的完整处理管线：Logit 处理器 → 采样 → 停止条件检查掌握温度、top-p、top-k 的数学定义及其对生

2月前
110
1
评论

vLLM内核探秘-第1章架构总览

第1章架构总览 :::tip 本章要点跟踪一个推理请求从 HTTP 到 Token 输出的完整旅程理解 V1 引擎的多进程架构及其设计动因掌握 vLLM 五大核心子系统的职责边界认识 V0

2月前
214
点赞
评论

vLLM内核探秘-第15章多模态推理

第15章多模态推理 :::tip 本章要点理解视觉语言模型（VLM）的推理流程与纯文本 LLM 的差异掌握图像编码器缓存的设计：为什么要缓存编码器输出深入多模态输入的预处理管线：从原始图片到

2月前
107
点赞
评论

vLLM内核探秘-第13章量化引擎：精度与速度的平衡

第13章量化引擎：精度与速度的平衡 :::tip 本章要点理解量化的基本原理：为什么可以用更少的 bit 表示权重掌握 vLLM 支持的主流量化格式：FP8、GPTQ、AWQ 及其特点深入量化

2月前
133
1
评论

vLLM内核探秘-第10章前缀缓存：零开销的加速

第10章前缀缓存：零开销的加速 :::tip 本章要点理解前缀缓存的动机：为什么同一个系统提示不应该重复计算掌握哈希链（Hash Chain）的设计：如何唯一标识一个 KV Cache 块深入

2月前
118
点赞
评论

vLLM内核探秘-第11章分块预填充与混合批处理

第11章分块预填充与混合批处理 :::tip 本章要点理解预填充阻塞问题：为什么长 Prompt 会影响解码请求的延迟掌握分块预填充的工作原理：将预填充拆分为多个可控大小的块深入 V1 统一调

2月前
133
1
评论

vLLM内核探秘-第2章 EngineCore：引擎的心脏

第2章 EngineCore：引擎的心脏 :::tip 本章要点理解 EngineCore 的主循环：从输入处理到输出收集的完整周期掌握 EngineCore 与 API Server 之间的 Z

2月前
139
点赞
评论

vLLM内核探秘-第3章调度器：Token 的交通指挥

第3章调度器：Token 的交通指挥 :::tip 本章要点理解 LLM 推理调度的核心挑战：预填充与解码的资源竞争掌握 V1 统一 Token 调度的设计理念及其优势深入 Scheduler

2月前
122
点赞
评论

vLLM内核探秘-第5章 KV Cache 管理：寸土寸金的显存

第5章 KV Cache 管理：寸土寸金的显存 :::tip 本章要点理解 BlockPool 的数据结构设计：为什么用 __slots__ 和空闲链表掌握 KVCacheManager 的分配与

2月前
145
2
评论

vLLM内核探秘-第14章张量并行与流水线并行

第14章张量并行与流水线并行 :::tip 本章要点理解张量并行（TP）的原理：如何在不改变数学结果的前提下切分矩阵乘法掌握 Megatron-LM 张量并行方案在 vLLM 中的应用理解流水

2月前
197
1
评论

vLLM内核探秘-第12章投机解码：以小博大

第12章投机解码：以小博大 :::tip 本章要点理解自回归瓶颈：为什么解码阶段 GPU 利用率低掌握投机解码的核心思想：猜测-验证范式深入多种投机策略：Draft Model、EAGLE、n

2月前
134
1
评论

vLLM内核探秘-前言

前言 2023 年，加州大学伯克利分校的一间实验室里，几个研究生正盯着 GPU 利用率监控面板发愁。他们在用 HuggingFace Transformers 部署一个 13B 参数的语言模型，GPU

2月前
125
1
评论

vLLM内核探秘-第16章 LoRA 适配器热切换

第16章 LoRA 适配器热切换 :::tip 本章要点理解 LoRA 在推理中的作用：一个基座模型服务多个任务掌握 vLLM 的 LoRA 加载与管理机制理解多 LoRA 并发服务的调度策略

2月前
121
1
评论

vLLM内核探秘-第18章设计模式与架构哲学

第18章设计模式与架构哲学 :::tip 本章要点提炼 vLLM 代码库中反复出现的设计模式理解 V0 → V1 重构背后的架构判断认识"借用已有领域的智慧"的跨领域思维反思高性能系统设计的

2月前
38
1
评论

vLLM内核探秘-第8章前向计算与 CUDA Graph

第8章前向计算与 CUDA Graph :::tip 本章要点理解 ModelRunner 在 Worker 内部的角色与职责掌握持久化批次（Persistent Batch）模式：为什么用 N

2月前
111
1
评论