vllm - 如故07的收藏集 - 掘金

vllm

更多收藏集

4篇文章 · 0订阅

PD分离部署实践:DeepSeek-V3-w8a8与 vLLM 的技术融合之路

相较于 PD 混部，PD 分离的模型部署方式通过将 prefill 和 decode 阶段解耦，可有效提升资源利用率。

是店小二呀
3月前
231
点赞
评论

探秘Transformer系列之（26）--- KV Cache优化之 PD分离or合并

从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。

罗西的思考
11月前
910
点赞
评论

PD 分离推理架构详解

PD 分离大模型推理中的一种架构优化策略，核心思想是把 prefill 阶段和 decode 阶段分开，由不同的 GPU 或实例分别承担。

Se7en258
6月前
774
1
评论

🌸万字解析：大规模语言模型（LLM）推理中的Prefill与Decode分离方案

在LLM推理计算中Prefill和Decode两个阶段的计算/显存/带宽需求不一样，通常Prefill是算力密集，Decode是访存密集。一些场景中P和D两者分开计算可提升性能。vLLM是一种主流的推

聚客AI
6月前
1.4k
1
评论

🌸万字解析：大规模语言模型（LLM）推理中的Prefill与Decode分离方案