首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型相关
IguoChan
创建于2025-08-23
订阅专栏
大模型越来越火,做的事情也和大模型有些关系,顺带学一学
等 1 人订阅
共4篇文章
创建于2025-08-23
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
sglang(1):开发环境搭建
0. 简介 sglang是一个高性能的大语言模型和视觉-语言模型服务框架。 它旨在从单 GPU 到大型分布式集群等各类部署环境中提供低延迟、高吞吐量的推理服务。 在通过nano-vllm系列针对推理的
nano-vllm(3):Continuous Batching
0. 概念 0.1 为什么需要批处理 LLM以自回归方式进行decode,而decode阶段是典型的数据密集型的计算方式,如果GPU调度时每次只计算一个Sequence,只生成一个token,那简直就
nano-vllm(2):KV Cache、PagedAttention和nano-vllm的实现
0. 什么是KV Cache 在0. nano-vllm:大模型推理原理和流程中我们阐述了大语言模型作为一种自回归模型的基本工作流程,其主要工作阶段分为: prefill阶段:模型处理全部的Promp
nano-vllm(1):大模型推理原理和流程
0. 简介 LLM:就是大语言模型,指参数量较大且具有较强生成能力的语言模型。 vLLM:功能完备的生产级大语言模型推理引擎。 nano-vllm:是vLLM的极简教学版实现,代码只有1200行左右。