用户99019305245

赞

0

|

搜索文章

Nano-vLLM-MS：基于 nano-vLLM ，支持 MoE 模型和 Speculative Decoding

Nano-vLLM-MS 项目地址这是一个基于 nano-vLLM 的轻量级 vLLM 实现，增强了对 MoE 模型和 Speculative Decoding（推测解码）的支持。

16天前
59
点赞
评论

Nano-vLLM-MS：基于 nano-vLLM ，支持 MoE 模型和 Speculative Decoding

codex做了一个 VS Code 小插件：一键折叠 / 展开当前 Python 文件所有代码块

VS Code 小插件：一键折叠 / 展开当前 Python 文件所有代码块，这个插件的目标很明确，不做复杂功能，就是让阅读大型 Python 源码文件时更方便一点。

1月前
39
点赞
评论

codex做了一个 VS Code 小插件：一键折叠 / 展开当前 Python 文件所有代码块

采样策略(转载)

原文链接：大语言模型中的采样参数 - wenzhaoabc 采样策略 LLM通过自回归的方式，一步步预测出可能的下一个token。每次预测时，模型会输出一个概率分布，表示每个token作为下一个tok

3月前
70
点赞
评论

为什么需要KVCache?

为什么需要KVCache? 本blog主要介绍大模型推理中 KV Cache 的作用。先通过模拟自回归生成过程，说明模型是如何逐步生成文本的；随后进一步解释 KV Cache 为什么被提出。 1. 大

3月前
77
点赞
评论

OpenWebUI (本地)对接 vLLM (服务器)的完整过程

OpenWebUI (本地)对接 vLLM (服务器)的完整过程 OpenWebUI (本地)对接 vLLM (服务器)的完整过程1. 启动OpenWebUI2. 配置OpenWebUI 1. 启动O

3月前
244
点赞
评论

OpenWebUI (本地)对接 vLLM (服务器)的完整过程

个人成就

文章被阅读 489

加入于

2025-11-11