首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
vLLM内核探秘
杨艺韬
创建于2026-04-16
订阅专栏
vLLM内核探秘
等 4 人订阅
共19篇文章
创建于2026-04-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
vLLM内核探秘-第6章 Worker 与 Executor:GPU 军团
第6章 Worker 与 Executor:GPU 军团 :::tip 本章要点 理解 Executor 的抽象层设计:为什么要在 EngineCore 和 Worker 之间加一层 掌握三种 Exe
vLLM内核探秘-第17章 API 服务器与生产部署
第17章 API 服务器与生产部署 :::tip 本章要点 理解 OpenAI 兼容 API 的实现:endpoint 映射与参数转换 掌握流式输出(SSE)的实现机制 深入生产部署的关键配置:ten
vLLM内核探秘-第4章 PagedAttention:虚拟内存的启示
第4章 PagedAttention:虚拟内存的启示 :::tip 本章要点 理解 KV Cache 内存碎片问题的本质:为什么传统方案浪费 60-80% 的显存 从操作系统的虚拟内存机制类比理解 P
vLLM内核探秘-第7章 模型加载与权重管理
第7章 模型加载与权重管理 :::tip 本章要点 理解模型加载的三阶段流水线:发现 → 加载 → 分配 深入 BaseModelLoader 的策略模式:8 种加载器适配不同场景 掌握 _prepa
vLLM内核探秘-第9章 采样与输出处理
第9章 采样与输出处理 :::tip 本章要点 理解 Logits 到 Token 的完整处理管线:Logit 处理器 → 采样 → 停止条件检查 掌握温度、top-p、top-k 的数学定义及其对生
vLLM内核探秘-第1章 架构总览
第1章 架构总览 :::tip 本章要点 跟踪一个推理请求从 HTTP 到 Token 输出的完整旅程 理解 V1 引擎的多进程架构及其设计动因 掌握 vLLM 五大核心子系统的职责边界 认识 V0
vLLM内核探秘-第15章 多模态推理
第15章 多模态推理 :::tip 本章要点 理解视觉语言模型(VLM)的推理流程与纯文本 LLM 的差异 掌握图像编码器缓存的设计:为什么要缓存编码器输出 深入多模态输入的预处理管线:从原始图片到
vLLM内核探秘-第13章 量化引擎:精度与速度的平衡
第13章 量化引擎:精度与速度的平衡 :::tip 本章要点 理解量化的基本原理:为什么可以用更少的 bit 表示权重 掌握 vLLM 支持的主流量化格式:FP8、GPTQ、AWQ 及其特点 深入量化
vLLM内核探秘-第10章 前缀缓存:零开销的加速
第10章 前缀缓存:零开销的加速 :::tip 本章要点 理解前缀缓存的动机:为什么同一个系统提示不应该重复计算 掌握哈希链(Hash Chain)的设计:如何唯一标识一个 KV Cache 块 深入
vLLM内核探秘-第11章 分块预填充与混合批处理
第11章 分块预填充与混合批处理 :::tip 本章要点 理解预填充阻塞问题:为什么长 Prompt 会影响解码请求的延迟 掌握分块预填充的工作原理:将预填充拆分为多个可控大小的块 深入 V1 统一调
vLLM内核探秘-第2章 EngineCore:引擎的心脏
第2章 EngineCore:引擎的心脏 :::tip 本章要点 理解 EngineCore 的主循环:从输入处理到输出收集的完整周期 掌握 EngineCore 与 API Server 之间的 Z
vLLM内核探秘-第3章 调度器:Token 的交通指挥
第3章 调度器:Token 的交通指挥 :::tip 本章要点 理解 LLM 推理调度的核心挑战:预填充与解码的资源竞争 掌握 V1 统一 Token 调度的设计理念及其优势 深入 Scheduler
vLLM内核探秘-第5章 KV Cache 管理:寸土寸金的显存
第5章 KV Cache 管理:寸土寸金的显存 :::tip 本章要点 理解 BlockPool 的数据结构设计:为什么用 __slots__ 和空闲链表 掌握 KVCacheManager 的分配与
vLLM内核探秘-第14章 张量并行与流水线并行
第14章 张量并行与流水线并行 :::tip 本章要点 理解张量并行(TP)的原理:如何在不改变数学结果的前提下切分矩阵乘法 掌握 Megatron-LM 张量并行方案在 vLLM 中的应用 理解流水
vLLM内核探秘-第12章 投机解码:以小博大
第12章 投机解码:以小博大 :::tip 本章要点 理解自回归瓶颈:为什么解码阶段 GPU 利用率低 掌握投机解码的核心思想:猜测-验证范式 深入多种投机策略:Draft Model、EAGLE、n
vLLM内核探秘-前言
前言 2023 年,加州大学伯克利分校的一间实验室里,几个研究生正盯着 GPU 利用率监控面板发愁。他们在用 HuggingFace Transformers 部署一个 13B 参数的语言模型,GPU
vLLM内核探秘-第16章 LoRA 适配器热切换
第16章 LoRA 适配器热切换 :::tip 本章要点 理解 LoRA 在推理中的作用:一个基座模型服务多个任务 掌握 vLLM 的 LoRA 加载与管理机制 理解多 LoRA 并发服务的调度策略
vLLM内核探秘-第18章 设计模式与架构哲学
第18章 设计模式与架构哲学 :::tip 本章要点 提炼 vLLM 代码库中反复出现的设计模式 理解 V0 → V1 重构背后的架构判断 认识"借用已有领域的智慧"的跨领域思维 反思高性能系统设计的
vLLM内核探秘-第8章 前向计算与 CUDA Graph
第8章 前向计算与 CUDA Graph :::tip 本章要点 理解 ModelRunner 在 Worker 内部的角色与职责 掌握持久化批次(Persistent Batch)模式:为什么用 N