首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Se7en258
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
PD 分离推理架构详解
PD 分离大模型推理中的一种架构优化策略,核心思想是把 prefill 阶段和 decode 阶段分开,由不同的 GPU 或实例分别承担。
使用 NVIDIA Dynamo 部署 PD 分离推理服务
本文详细介绍了 NVIDIA Dynamo 分布式推理框架的核心概念与实践。文章不仅演示了 Dynamo 在最简单部署模式下的运行方式,还重点讲解了 PD 分离模式,通过将 prefill 与 dec
Chunked-Prefills 分块预填充机制详解
为解决传统静态或迭代调度中存在的资源浪费与延迟问题,Sarathi-Serve 提出了 chunked-prefills 和 stall-free scheduling 机制,通过将长 prompt
Dify + OceanBase + MCP:三剑合璧,轻松构建 RAG 应用
本文详细介绍如何结合 Dify、OceanBase 和 MCP 从零开始构建一个功能完备的 RAG 应用。
Speculative Decoding 推测解码方案详解
本文系统介绍了从早期草稿模型方法、Prompt Lookup 到 Jacobi Decoding、Lookahead、Medusa,再到当前速度领先的 EAGLE 等多种方案。
使用 Higress AI 网关代理 vLLM 推理服务
本文介绍了如何借助 llmaz 快速部署基于 vLLM 的大语言模型推理服务,并结合 Higress AI 网关 实现服务代理、流量调度、可观测性和 Fallback 等关键能力。
Prefix Caching 详解:实现 KV Cache 的跨请求高效复用
Prefix Caching 通过缓存并复用多个请求中相同前缀的 KV Cache,有效降低了大语言模型推理中的首 token 延迟和计算成本。
使用 Run:ai Model Streamer 实现模型的高效加载
本文介绍了 Run:ai Model Streamer 这一高效的模型加载工具,它通过并发读取模型权重并直接流式传输到 GPU,显著提升了大型模型的加载效率。
OpenTelemetry × Elastic Observability 系列(一):整体架构介绍
本文介绍了 OpenTelemetry Demo 的整体架构,并演示了如何借助 Elastic Observability 实现链路追踪、日志与指标的统一观测。
vLLM 核心技术 PagedAttention 原理详解
本文是 vLLM 系列文章的第二篇,介绍 vLLM 核心技术 PagedAttention 的设计理念与实现机制。
下一页
个人成就
文章被点赞
113
文章被阅读
86,708
掘力值
1,877
关注了
1
关注者
34
收藏集
5
关注标签
1
加入于
2020-03-15