稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
vllm
订阅
avatar
如故07
更多收藏集

微信扫码分享

微信
新浪微博
QQ

4篇文章 · 0订阅
  • PD分离部署实践:DeepSeek-V3-w8a8与 vLLM 的技术融合之路
    相较于 PD 混部,PD 分离的模型部署方式通过将 prefill 和 decode 阶段解耦,可有效提升资源利用率。
    • 是店小二呀
    • 3月前
    • 231
    • 点赞
    • 评论
    后端
  • 探秘Transformer系列之(26)--- KV Cache优化 之 PD分离or合并
    从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
    • 罗西的思考
    • 11月前
    • 910
    • 点赞
    • 评论
    人工智能
  • PD 分离推理架构详解
    PD 分离大模型推理中的一种架构优化策略,核心思想是把 prefill 阶段和 decode 阶段分开,由不同的 GPU 或实例分别承担。
    • Se7en258
    • 6月前
    • 774
    • 1
    • 评论
    人工智能
    PD 分离推理架构详解
  • 🌸万字解析:大规模语言模型(LLM)推理中的Prefill与Decode分离方案
    在LLM推理计算中Prefill和Decode两个阶段的计算/显存/带宽需求不一样,通常Prefill是算力密集,Decode是访存密集。一些场景中P和D两者分开计算可提升性能。vLLM是一种主流的推
    • 聚客AI
    • 6月前
    • 1.4k
    • 1
    • 评论
    人工智能 LLM 掘金·日新计划
    🌸万字解析:大规模语言模型(LLM)推理中的Prefill与Decode分离方案