首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
vllm
订阅
如故07
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
PD分离部署实践:DeepSeek-V3-w8a8与 vLLM 的技术融合之路
相较于 PD 混部,PD 分离的模型部署方式通过将 prefill 和 decode 阶段解耦,可有效提升资源利用率。
探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并
从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
PD 分离推理架构详解
PD 分离大模型推理中的一种架构优化策略,核心思想是把 prefill 阶段和 decode 阶段分开,由不同的 GPU 或实例分别承担。
🌸万字解析:大规模语言模型(LLM)推理中的Prefill与Decode分离方案
在LLM推理计算中Prefill和Decode两个阶段的计算/显存/带宽需求不一样,通常Prefill是算力密集,Decode是访存密集。一些场景中P和D两者分开计算可提升性能。vLLM是一种主流的推