百度把 8B 模型开源了,我在 3080 上 4 秒出了一张图

2 阅读6分钟

百度把 8B 模型开源了,我在 3080 上 4 秒出了一张图

封面

说实话,我一开始是不信的

上周三晚上,群里有个朋友甩了个链接过来。

"百度开源了个文生图模型,8B,效果贼好。"

我看完直接回复:"百度?开源?效果贼好?你是不是中午喝多了。"

不是我刻意黑百度,是这三个词放一起,违和感实在太强。过去这些年,国内大厂开源的东西,要么是"阉割版demo",要么是"下载完发现要申请商用授权",要么就是"你以为它开源了,其实它只是公布了技术报告"。

但那个朋友甩了个 GitHub 链接过来:Apache 2.0

我愣了一下。

Apache 2.0 是真·开源,随便商用,不用备案,不用申请。这不像百度的风格。

然后我去看了 Hugging Face 上的权重文件:safetensors 全量 15GB 左右,有人做了 GGUF 量化版本,Q6_K 只要 6GB 多。

那个晚上我删掉了一个 Flux dev 的 fp8 版本,下载了这个模型。

凌晨 1 点,第一张图出来的时候我愣了 3 秒

我用的是 ComfyUI。

工作流很简单:GGUF 加载器 → 一个叫 ministral-3-3b 的小语言模型当文本编码器 → VAE → KSampler → SaveImage。

参数我直接抄官方 demo 的:4 步,cfg=1,euler,simple

对,你没看错,4 步

我之前跑 SDXL 最少也要 20 步起步,跑 Flux dev 标准是 20-50 步。这个模型说 4 步就够了。我本能地不信。

我敲了一个测试提示词——一个雪地里穿比基尼的女生,手里举着写着"Ernie image Turbo"的牌子(对,顺便测一下文字渲染)——点击了生成。

第一张测试图

总耗时 4.2 秒。

我把图放大看,牌子上的 "Ernie image Turbo" 七个字母,一个不差

这个东西要知道有多变态——你去试试 SDXL 让它在图里写英文,十张有九张是火星文。Flux 好一些,但也经常缺字母漏笔画。

这玩意 4 步出图,英文一个字母都不错。

4 步出图的秘密

我去扒了一下论文,顺便查了几篇技术解读。

原始的 ERNIE-Image 是个 8B 参数的单流 DiT(Diffusion Transformer),架构上接近 Flux,需要 50 步推理。

Turbo 版是它的蒸馏版本——用原模型当老师,把 50 步的采样轨迹"压缩"到 8 步。我们这个工作流更激进,直接用 4 步就能出接近原版的效果。

说人话就是:原模型像是慢慢走到终点的人,Turbo 版是抄了条近路直接飞过去的人。

路径短了,自然就快了。

配上 GGUF Q6_K 量化(模型体积从 15GB 压到 6GB 多),3080 这种 10GB 的卡也能流畅跑 1280×768。这在两年前是不敢想的事。

测试图2

我连续测了十几个场景

人像、风景、科幻城市、动物特写、水墨画、二次元……几乎每个领域它都能拿出 80 分以上的成绩。

特别值得说的是两点:

第一,中文渲染真的能打。

以前想让 AI 在图里写中文,基本是做梦。这个模型你让它写"你好世界",它真能写出来,而且笔画工整。这对国内做海报、做短视频封面、做表情包的兄弟姐妹,简直是核弹。

第二,指令跟随能力强。

你说"左边一只橘猫,右边一只黑猫,中间放一个红苹果",它真能按你说的布局。不像有些模型,你说三个东西,它随机给你画两个。

测试图3 测试图4

然后我想到一个问题

既然是本地跑的,既然是 Apache 2.0 开源的,既然模型权重完全在我电脑里……

那它有内容限制吗?

答案是——没有。

没有云端审核,没有使用日志,没有"您的请求违反了社区准则"的弹窗。你输入什么,它生成什么。

这在 2026 年的今天,已经是一种奢侈品了。

我不是说要大家去搞什么不正经的东西。我想说的是——创作的边界,应该由创作者自己决定,而不是由一个远在云端的审核模型决定

画一张解剖学参考图不行吗?画一个艺术人体不行吗?画一个血腥的战争场面不行吗?

这些在线工具全给你拦下来,理由是"可能违反内容政策"。

本地模型不会管你这些。你的显卡,你的电脑,你说了算。

测试图5

硬件门槛其实不高

很多人一看"8B 参数"就退缩了,觉得自己那张 3060 带不动。

实测告诉你:

  • 10GB 显存(3080/4070 级别):Q6_K 量化版本,1280×768 分辨率,4 秒左右一张
  • 8GB 显存(3060Ti/4060):Q4_K_M 量化版本,1024×1024 分辨率,勉强能跑
  • 24GB 显存(3090/4090):直接上 fp8 或 bf16 全量版本,效果更好

GGUF 量化的好处是你可以按自己显卡挑版本,不用硬扛全量权重。

测试图6

我给它做了个一键启动的 Gradio 版本

ComfyUI 对小白确实不友好,节点连来连去看着就头大。

所以我把这个工作流包了个 Gradio 界面——左边填提示词、调分辨率、调步数,右边直接出图。双击一个 bat 文件就能启动,浏览器自动打开。

不用装 Python 环境,不用 pip install 一堆东西,整包打开即用。

整合包里包含:

  • 便携版 Python 3.12 + PyTorch + CUDA
  • ComfyUI 核心 + GGUF 节点
  • ERNIE-Image-Turbo Q6_K 模型权重
  • Flux2 VAE + ministral-3-3b 文本编码器
  • 一键启动的 Gradio 网页界面

下载下来解压,双击 01-run.bat,等模型加载完,你就在浏览器里看到界面了。

写在最后

过去三年,我见证了太多"开源了但没完全开源"的国产模型。

百度这次让我有点意外。Apache 2.0、完整权重、社区适配 ComfyUI、配合 Unsloth 做 GGUF 量化——整个配套做得非常到位。

不管你对这个公司过去的印象如何,至少这一次,他们做了一件正确的事。

而我们做为用户,能享受到的就是:一张 10GB 的显卡,4 秒出一张接近商业模型水准的图,完全本地,完全私有,完全你说了算。

在一个云端 AI 越管越严的时代,这已经很难得了。


整合包下载xueshu.fun/7263

打开即用,不折腾,你的电脑你做主。