百度把 8B 模型开源了，我在 3080 上 4 秒出了一张图百度把 8B 模型开源了，我在 3080 上 4 秒出了一

百度把 8B 模型开源了，我在 3080 上 4 秒出了一张图

说实话，我一开始是不信的

上周三晚上，群里有个朋友甩了个链接过来。

"百度开源了个文生图模型，8B，效果贼好。"

我看完直接回复："百度？开源？效果贼好？你是不是中午喝多了。"

不是我刻意黑百度，是这三个词放一起，违和感实在太强。过去这些年，国内大厂开源的东西，要么是"阉割版demo"，要么是"下载完发现要申请商用授权"，要么就是"你以为它开源了，其实它只是公布了技术报告"。

但那个朋友甩了个 GitHub 链接过来：Apache 2.0。

我愣了一下。

Apache 2.0 是真·开源，随便商用，不用备案，不用申请。这不像百度的风格。

然后我去看了 Hugging Face 上的权重文件：safetensors 全量 15GB 左右，有人做了 GGUF 量化版本，Q6_K 只要 6GB 多。

那个晚上我删掉了一个 Flux dev 的 fp8 版本，下载了这个模型。

凌晨 1 点，第一张图出来的时候我愣了 3 秒

我用的是 ComfyUI。

工作流很简单：GGUF 加载器 → 一个叫 ministral-3-3b 的小语言模型当文本编码器 → VAE → KSampler → SaveImage。

参数我直接抄官方 demo 的：4 步，cfg=1，euler，simple。

对，你没看错，4 步。

我之前跑 SDXL 最少也要 20 步起步，跑 Flux dev 标准是 20-50 步。这个模型说 4 步就够了。我本能地不信。

我敲了一个测试提示词——一个雪地里穿比基尼的女生，手里举着写着"Ernie image Turbo"的牌子（对，顺便测一下文字渲染）——点击了生成。

总耗时 4.2 秒。

我把图放大看，牌子上的 "Ernie image Turbo" 七个字母，一个不差。

这个东西要知道有多变态——你去试试 SDXL 让它在图里写英文，十张有九张是火星文。Flux 好一些，但也经常缺字母漏笔画。

这玩意 4 步出图，英文一个字母都不错。

4 步出图的秘密

我去扒了一下论文，顺便查了几篇技术解读。

原始的 ERNIE-Image 是个 8B 参数的单流 DiT（Diffusion Transformer），架构上接近 Flux，需要 50 步推理。

Turbo 版是它的蒸馏版本——用原模型当老师，把 50 步的采样轨迹"压缩"到 8 步。我们这个工作流更激进，直接用 4 步就能出接近原版的效果。

说人话就是：原模型像是慢慢走到终点的人，Turbo 版是抄了条近路直接飞过去的人。

路径短了，自然就快了。

配上 GGUF Q6_K 量化（模型体积从 15GB 压到 6GB 多），3080 这种 10GB 的卡也能流畅跑 1280×768。这在两年前是不敢想的事。

我连续测了十几个场景

人像、风景、科幻城市、动物特写、水墨画、二次元……几乎每个领域它都能拿出 80 分以上的成绩。

特别值得说的是两点：

第一，中文渲染真的能打。

以前想让 AI 在图里写中文，基本是做梦。这个模型你让它写"你好世界"，它真能写出来，而且笔画工整。这对国内做海报、做短视频封面、做表情包的兄弟姐妹，简直是核弹。

第二，指令跟随能力强。

你说"左边一只橘猫，右边一只黑猫，中间放一个红苹果"，它真能按你说的布局。不像有些模型，你说三个东西，它随机给你画两个。

然后我想到一个问题

既然是本地跑的，既然是 Apache 2.0 开源的，既然模型权重完全在我电脑里……

那它有内容限制吗？

答案是——没有。

没有云端审核，没有使用日志，没有"您的请求违反了社区准则"的弹窗。你输入什么，它生成什么。

这在 2026 年的今天，已经是一种奢侈品了。

我不是说要大家去搞什么不正经的东西。我想说的是——创作的边界，应该由创作者自己决定，而不是由一个远在云端的审核模型决定。

画一张解剖学参考图不行吗？画一个艺术人体不行吗？画一个血腥的战争场面不行吗？

这些在线工具全给你拦下来，理由是"可能违反内容政策"。

本地模型不会管你这些。你的显卡，你的电脑，你说了算。

硬件门槛其实不高

很多人一看"8B 参数"就退缩了，觉得自己那张 3060 带不动。

实测告诉你：

10GB 显存（3080/4070 级别）：Q6_K 量化版本，1280×768 分辨率，4 秒左右一张
8GB 显存（3060Ti/4060）：Q4_K_M 量化版本，1024×1024 分辨率，勉强能跑
24GB 显存（3090/4090）：直接上 fp8 或 bf16 全量版本，效果更好

GGUF 量化的好处是你可以按自己显卡挑版本，不用硬扛全量权重。

我给它做了个一键启动的 Gradio 版本

ComfyUI 对小白确实不友好，节点连来连去看着就头大。

所以我把这个工作流包了个 Gradio 界面——左边填提示词、调分辨率、调步数，右边直接出图。双击一个 bat 文件就能启动，浏览器自动打开。

不用装 Python 环境，不用 pip install 一堆东西，整包打开即用。

整合包里包含：

便携版 Python 3.12 + PyTorch + CUDA
ComfyUI 核心 + GGUF 节点
ERNIE-Image-Turbo Q6_K 模型权重
Flux2 VAE + ministral-3-3b 文本编码器
一键启动的 Gradio 网页界面

下载下来解压，双击 01-run.bat，等模型加载完，你就在浏览器里看到界面了。

写在最后

过去三年，我见证了太多"开源了但没完全开源"的国产模型。

百度这次让我有点意外。Apache 2.0、完整权重、社区适配 ComfyUI、配合 Unsloth 做 GGUF 量化——整个配套做得非常到位。

不管你对这个公司过去的印象如何，至少这一次，他们做了一件正确的事。

而我们做为用户，能享受到的就是：一张 10GB 的显卡，4 秒出一张接近商业模型水准的图，完全本地，完全私有，完全你说了算。

在一个云端 AI 越管越严的时代，这已经很难得了。

整合包下载：xueshu.fun/7263

打开即用，不折腾，你的电脑你做主。