大模型提速神器DFlash发布!块扩散投机解码适配Gemma/Qwen/Llama等数十款热门模型,多后端一键启用
[dflash] 是一个 实现快速数据闪存同步与传输 的 工具。简单讲,它能像U盘一样快速在设备间传递文件,支持断点续传和加密传输。适用人群:需要频繁在本地与远程服务器间传输数据的开发者及运维人员。
主要语言:Python
stars: 3.4k
核心功能
DFlash 是一个专为推测解码设计的轻量级块扩散模型,能够实现高效且高质量的并行草稿生成。它可以加速大语言模型(LLM)的推理过程,提高生成文本的效率。
支持的模型
支持多种模型,如 gemma-4 系列、Qwen3 系列、MiniMax-M2.5、Kimi-K2.5、gpt-oss 系列、Llama-3.1-8B-Instruct 等,部分模型已有对应的 DFlash 草稿模型,还有一些模型的支持正在开发中。用户可通过 GitHub issue 请求支持更多模型,并且项目方即将开源训练配方,用户可以自行训练 DFlash 草稿模型来加速任意 LLM。
安装
为避免冲突,建议为每个后端使用单独的虚拟环境,不同后端的安装命令如下:
- Transformers:
uv pip install -e ".[transformers]" - SGLang:
uv pip install -e ".[sglang]" - vLLM:vLLM v0.20.1+ 包含核心 DFlash 支持。大多数模型使用标准安装:
uv pip install -e ".[vllm]";Gemma4 DFlash 目前需要临时的 vLLM Gemma4 构建,推荐使用 Docker:docker pull ghcr.io/z-lab/vllm-openai:gemma4-dflash-cu130;也可使用源码安装:uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/41703/head";较新的非 Gemma4 SWA 草稿模型使用 SWA 支持分支:uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/40898/head" - MLX(Apple Silicon) :
pip install -e ".[mlx]"
快速开始
提供了不同后端的快速使用示例:
- vLLM:针对 Gemma4 模型和非 Gemma4 模型分别给出了启动命令示例。
- SGLang:给出了启动服务器的命令示例,还提供了一些可选的实验性环境变量设置。
- Transformers:仅 Qwen3 和 LLaMA-3.1 模型支持该后端,给出了使用示例代码。
- MLX(Apple Silicon) :提供了在 Apple M5 Pro 上使用 Qwen3、Qwen3.5 和 Gemma-4 模型的示例代码。
评估
所有基准测试使用相同的数据集(gsm8k、math500、humaneval、mbpp、mt-bench),首次运行时数据集会自动下载并缓存为 JSONL 文件到 cache/ 目录。针对不同后端(vLLM、SGLang、Transformers、MLX)分别给出了基准测试命令示例。
优势
- 高效性:通过并行草稿生成,加速大语言模型的推理过程,提高文本生成效率。
- 轻量级:作为轻量级模型,对资源的要求相对较低。
- 多模型支持:支持多种主流的大语言模型,具有较好的通用性。
应用场景
- 文本生成任务:如文章写作、对话生成等,能够快速生成高质量的文本。
- 代码生成:在代码编写场景中,加速代码生成过程。
- 问答系统:提高问答系统的响应速度,为用户提供更及时的答案。
AI编码代理的终极后端搭档!InsForge开源一体化平台,数据库/认证/存储全配齐,一键部署省心力
InsForge 是一个基于AI的Instagram内容生成与管理工具。简单讲,它能自动帮你创作和发布Instagram帖子,包括文案和图片设计。适用人群:社交媒体运营者、内容创作者及数字营销人员。
主要语言:TypeScript
stars: 8.8k
InsForge是一个用于代理式编码的一体化开源后端平台,为编码代理提供从数据库、身份验证、存储到计算、托管和AI网关等一系列功能,助力开发者端到端地开发全栈应用。
核心优势
- 一体化平台:整合了数据库、身份验证、存储、边缘函数、模型网关等多种后端服务,开发者无需在多个工具和平台间切换,提高开发效率。
- 支持编码代理:通过MCP Server和CLI + Skills两种接口,让编码代理能像后端工程师一样操作后端,读取后端上下文和状态,配置各类后端资源。
- 多部署方式:提供云托管和自托管两种部署方式,自托管可使用Docker Compose,还支持一键部署到Railway、Zeabur、Sealos等平台。
- 开源且社区活跃:采用Apache 2.0开源许可证,有活跃的社区支持,开发者可在Discord交流,也可通过贡献代码参与项目。
核心功能
- 身份验证:提供用户管理、身份验证和会话管理功能。
- 数据库:使用Postgres关系型数据库。
- 存储:支持S3兼容的文件存储。
- 模型网关:提供跨多个大语言模型(LLM)提供商的OpenAI兼容API。
- 边缘函数:支持在边缘运行无服务器代码。
- 计算(私有预览) :提供长期运行的容器服务。
- 站点部署:支持站点的构建和部署。
应用场景
- 全栈应用开发:开发者可借助InsForge的一体化功能,快速搭建和部署全栈应用,减少后端开发的复杂性。
- 自动化编码:编码代理可利用InsForge的接口操作后端,实现自动化的后端开发和配置,提高开发效率。
快速开始
-
云托管:访问insforge.dev即可使用。
-
自托管:需安装Docker和Node.js,通过Docker Compose运行。步骤如下:
- 克隆仓库:
git clone https://github.com/insforge/insforge.git - 进入目录:
cd insforge - 复制环境文件:
cp .env.example .env - 启动服务:
docker compose -f docker-compose.prod.yml up - 连接InsForge MCP:打开http://localhost:7130,按步骤连接。
- 验证安装:向代理发送特定提示验证连接。
- 克隆仓库:
-
一键部署:可通过Railway、Zeabur、Sealos等平台一键部署。
原文:mp.weixin.qq.com/s/55bx4Sc-H…
欢迎关注g*h:AI Tech研习社
关注g*h,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。