【GitHub每日速递 20260514】大模型提速神器DFlash发布！块扩散投机解码适配Gemma/Qwen/Llama等数十款热门模型，多后端一键启用

大模型提速神器DFlash发布！块扩散投机解码适配Gemma/Qwen/Llama等数十款热门模型，多后端一键启用

[dflash] 是一个实现快速数据闪存同步与传输的工具。简单讲，它能像U盘一样快速在设备间传递文件，支持断点续传和加密传输。适用人群：需要频繁在本地与远程服务器间传输数据的开发者及运维人员。

主要语言：Python

stars: 3.4k

核心功能

DFlash 是一个专为推测解码设计的轻量级块扩散模型，能够实现高效且高质量的并行草稿生成。它可以加速大语言模型（LLM）的推理过程，提高生成文本的效率。

支持的模型

支持多种模型，如 gemma-4 系列、Qwen3 系列、MiniMax-M2.5、Kimi-K2.5、gpt-oss 系列、Llama-3.1-8B-Instruct 等，部分模型已有对应的 DFlash 草稿模型，还有一些模型的支持正在开发中。用户可通过 GitHub issue 请求支持更多模型，并且项目方即将开源训练配方，用户可以自行训练 DFlash 草稿模型来加速任意 LLM。

安装

为避免冲突，建议为每个后端使用单独的虚拟环境，不同后端的安装命令如下：

Transformers：uv pip install -e ".[transformers]"
SGLang：uv pip install -e ".[sglang]"
vLLM：vLLM v0.20.1+ 包含核心 DFlash 支持。大多数模型使用标准安装：uv pip install -e ".[vllm]"；Gemma4 DFlash 目前需要临时的 vLLM Gemma4 构建，推荐使用 Docker：docker pull ghcr.io/z-lab/vllm-openai:gemma4-dflash-cu130；也可使用源码安装：uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/41703/head"；较新的非 Gemma4 SWA 草稿模型使用 SWA 支持分支：uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/40898/head"
MLX（Apple Silicon） ：pip install -e ".[mlx]"

快速开始

提供了不同后端的快速使用示例：

vLLM：针对 Gemma4 模型和非 Gemma4 模型分别给出了启动命令示例。
SGLang：给出了启动服务器的命令示例，还提供了一些可选的实验性环境变量设置。
Transformers：仅 Qwen3 和 LLaMA-3.1 模型支持该后端，给出了使用示例代码。
MLX（Apple Silicon） ：提供了在 Apple M5 Pro 上使用 Qwen3、Qwen3.5 和 Gemma-4 模型的示例代码。

评估

所有基准测试使用相同的数据集（gsm8k、math500、humaneval、mbpp、mt-bench），首次运行时数据集会自动下载并缓存为 JSONL 文件到 cache/ 目录。针对不同后端（vLLM、SGLang、Transformers、MLX）分别给出了基准测试命令示例。

优势

高效性：通过并行草稿生成，加速大语言模型的推理过程，提高文本生成效率。
轻量级：作为轻量级模型，对资源的要求相对较低。
多模型支持：支持多种主流的大语言模型，具有较好的通用性。

应用场景

文本生成任务：如文章写作、对话生成等，能够快速生成高质量的文本。
代码生成：在代码编写场景中，加速代码生成过程。
问答系统：提高问答系统的响应速度，为用户提供更及时的答案。

AI编码代理的终极后端搭档！InsForge开源一体化平台，数据库/认证/存储全配齐，一键部署省心力

InsForge 是一个基于AI的Instagram内容生成与管理工具。简单讲，它能自动帮你创作和发布Instagram帖子，包括文案和图片设计。适用人群：社交媒体运营者、内容创作者及数字营销人员。

项目地址：github.com/InsForge/In…

主要语言：TypeScript

stars: 8.8k

InsForge是一个用于代理式编码的一体化开源后端平台，为编码代理提供从数据库、身份验证、存储到计算、托管和AI网关等一系列功能，助力开发者端到端地开发全栈应用。

核心优势

一体化平台：整合了数据库、身份验证、存储、边缘函数、模型网关等多种后端服务，开发者无需在多个工具和平台间切换，提高开发效率。
支持编码代理：通过MCP Server和CLI + Skills两种接口，让编码代理能像后端工程师一样操作后端，读取后端上下文和状态，配置各类后端资源。
多部署方式：提供云托管和自托管两种部署方式，自托管可使用Docker Compose，还支持一键部署到Railway、Zeabur、Sealos等平台。
开源且社区活跃：采用Apache 2.0开源许可证，有活跃的社区支持，开发者可在Discord交流，也可通过贡献代码参与项目。

核心功能

身份验证：提供用户管理、身份验证和会话管理功能。
数据库：使用Postgres关系型数据库。
存储：支持S3兼容的文件存储。
模型网关：提供跨多个大语言模型（LLM）提供商的OpenAI兼容API。
边缘函数：支持在边缘运行无服务器代码。
计算（私有预览） ：提供长期运行的容器服务。
站点部署：支持站点的构建和部署。

应用场景

全栈应用开发：开发者可借助InsForge的一体化功能，快速搭建和部署全栈应用，减少后端开发的复杂性。
自动化编码：编码代理可利用InsForge的接口操作后端，实现自动化的后端开发和配置，提高开发效率。

快速开始

云托管：访问insforge.dev即可使用。
自托管：需安装Docker和Node.js，通过Docker Compose运行。步骤如下：
- 克隆仓库：git clone https://github.com/insforge/insforge.git
- 进入目录：cd insforge
- 复制环境文件：cp .env.example .env
- 启动服务：docker compose -f docker-compose.prod.yml up
- 连接InsForge MCP：打开http://localhost:7130，按步骤连接。
- 验证安装：向代理发送特定提示验证连接。
一键部署：可通过Railway、Zeabur、Sealos等平台一键部署。

原文：mp.weixin.qq.com/s/55bx4Sc-H…

欢迎关注g*h：AI Tech研习社

关注g*h，后台回复【OpenClaw完全使用手册】，领取OpenClaw完全使用手册.pdf学习资料，更多学习资源敬请期待。