【GitHub每日速递 20260514】大模型提速神器DFlash发布!块扩散投机解码适配Gemma/Qwen/Llama等数十款热门模型,多后端一键启用

15 阅读5分钟

大模型提速神器DFlash发布!块扩散投机解码适配Gemma/Qwen/Llama等数十款热门模型,多后端一键启用

[dflash] 是一个 实现快速数据闪存同步与传输 的 工具。简单讲,它能像U盘一样快速在设备间传递文件,支持断点续传和加密传输。适用人群:需要频繁在本地与远程服务器间传输数据的开发者及运维人员。

项目地址:github.com/z-lab/dflas…

主要语言:Python

stars: 3.4k

1

核心功能

DFlash 是一个专为推测解码设计的轻量级块扩散模型,能够实现高效且高质量的并行草稿生成。它可以加速大语言模型(LLM)的推理过程,提高生成文本的效率。

支持的模型

支持多种模型,如 gemma-4 系列、Qwen3 系列、MiniMax-M2.5、Kimi-K2.5、gpt-oss 系列、Llama-3.1-8B-Instruct 等,部分模型已有对应的 DFlash 草稿模型,还有一些模型的支持正在开发中。用户可通过 GitHub issue 请求支持更多模型,并且项目方即将开源训练配方,用户可以自行训练 DFlash 草稿模型来加速任意 LLM。

安装

为避免冲突,建议为每个后端使用单独的虚拟环境,不同后端的安装命令如下:

  • Transformersuv pip install -e ".[transformers]"
  • SGLanguv pip install -e ".[sglang]"
  • vLLM:vLLM v0.20.1+ 包含核心 DFlash 支持。大多数模型使用标准安装:uv pip install -e ".[vllm]";Gemma4 DFlash 目前需要临时的 vLLM Gemma4 构建,推荐使用 Docker:docker pull ghcr.io/z-lab/vllm-openai:gemma4-dflash-cu130;也可使用源码安装:uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/41703/head";较新的非 Gemma4 SWA 草稿模型使用 SWA 支持分支:uv pip install -U --torch-backend=auto "vllm @ git+https://github.com/vllm-project/vllm.git@refs/pull/40898/head"
  • MLX(Apple Silicon)pip install -e ".[mlx]"

快速开始

提供了不同后端的快速使用示例:

  • vLLM:针对 Gemma4 模型和非 Gemma4 模型分别给出了启动命令示例。
  • SGLang:给出了启动服务器的命令示例,还提供了一些可选的实验性环境变量设置。
  • Transformers:仅 Qwen3 和 LLaMA-3.1 模型支持该后端,给出了使用示例代码。
  • MLX(Apple Silicon) :提供了在 Apple M5 Pro 上使用 Qwen3、Qwen3.5 和 Gemma-4 模型的示例代码。

评估

所有基准测试使用相同的数据集(gsm8k、math500、humaneval、mbpp、mt-bench),首次运行时数据集会自动下载并缓存为 JSONL 文件到 cache/ 目录。针对不同后端(vLLM、SGLang、Transformers、MLX)分别给出了基准测试命令示例。

优势

  • 高效性:通过并行草稿生成,加速大语言模型的推理过程,提高文本生成效率。
  • 轻量级:作为轻量级模型,对资源的要求相对较低。
  • 多模型支持:支持多种主流的大语言模型,具有较好的通用性。

应用场景

  • 文本生成任务:如文章写作、对话生成等,能够快速生成高质量的文本。
  • 代码生成:在代码编写场景中,加速代码生成过程。
  • 问答系统:提高问答系统的响应速度,为用户提供更及时的答案。

AI编码代理的终极后端搭档!InsForge开源一体化平台,数据库/认证/存储全配齐,一键部署省心力

InsForge 是一个基于AI的Instagram内容生成与管理工具。简单讲,它能自动帮你创作和发布Instagram帖子,包括文案和图片设计。适用人群:社交媒体运营者、内容创作者及数字营销人员。

项目地址:github.com/InsForge/In…

主要语言:TypeScript

stars: 8.8k

2

InsForge是一个用于代理式编码的一体化开源后端平台,为编码代理提供从数据库、身份验证、存储到计算、托管和AI网关等一系列功能,助力开发者端到端地开发全栈应用。

核心优势

  • 一体化平台:整合了数据库、身份验证、存储、边缘函数、模型网关等多种后端服务,开发者无需在多个工具和平台间切换,提高开发效率。
  • 支持编码代理:通过MCP Server和CLI + Skills两种接口,让编码代理能像后端工程师一样操作后端,读取后端上下文和状态,配置各类后端资源。
  • 多部署方式:提供云托管和自托管两种部署方式,自托管可使用Docker Compose,还支持一键部署到Railway、Zeabur、Sealos等平台。
  • 开源且社区活跃:采用Apache 2.0开源许可证,有活跃的社区支持,开发者可在Discord交流,也可通过贡献代码参与项目。

核心功能

  • 身份验证:提供用户管理、身份验证和会话管理功能。
  • 数据库:使用Postgres关系型数据库。
  • 存储:支持S3兼容的文件存储。
  • 模型网关:提供跨多个大语言模型(LLM)提供商的OpenAI兼容API。
  • 边缘函数:支持在边缘运行无服务器代码。
  • 计算(私有预览) :提供长期运行的容器服务。
  • 站点部署:支持站点的构建和部署。

应用场景

  • 全栈应用开发:开发者可借助InsForge的一体化功能,快速搭建和部署全栈应用,减少后端开发的复杂性。
  • 自动化编码:编码代理可利用InsForge的接口操作后端,实现自动化的后端开发和配置,提高开发效率。

快速开始

  • 云托管:访问insforge.dev即可使用。

  • 自托管:需安装Docker和Node.js,通过Docker Compose运行。步骤如下:

    • 克隆仓库:git clone https://github.com/insforge/insforge.git
    • 进入目录:cd insforge
    • 复制环境文件:cp .env.example .env
    • 启动服务:docker compose -f docker-compose.prod.yml up
    • 连接InsForge MCP:打开http://localhost:7130,按步骤连接。
    • 验证安装:向代理发送特定提示验证连接。
  • 一键部署:可通过Railway、Zeabur、Sealos等平台一键部署。

原文:mp.weixin.qq.com/s/55bx4Sc-H…

欢迎关注g*h:AI Tech研习社

关注g*h,后台回复【OpenClaw完全使用手册】,领取OpenClaw完全使用手册.pdf学习资料,更多学习资源敬请期待。