百度把 8B 模型开源了,我在 3080 上 4 秒出了一张图
说实话,我一开始是不信的
上周三晚上,群里有个朋友甩了个链接过来。
"百度开源了个文生图模型,8B,效果贼好。"
我看完直接回复:"百度?开源?效果贼好?你是不是中午喝多了。"
不是我刻意黑百度,是这三个词放一起,违和感实在太强。过去这些年,国内大厂开源的东西,要么是"阉割版demo",要么是"下载完发现要申请商用授权",要么就是"你以为它开源了,其实它只是公布了技术报告"。
但那个朋友甩了个 GitHub 链接过来:Apache 2.0。
我愣了一下。
Apache 2.0 是真·开源,随便商用,不用备案,不用申请。这不像百度的风格。
然后我去看了 Hugging Face 上的权重文件:safetensors 全量 15GB 左右,有人做了 GGUF 量化版本,Q6_K 只要 6GB 多。
那个晚上我删掉了一个 Flux dev 的 fp8 版本,下载了这个模型。
凌晨 1 点,第一张图出来的时候我愣了 3 秒
我用的是 ComfyUI。
工作流很简单:GGUF 加载器 → 一个叫 ministral-3-3b 的小语言模型当文本编码器 → VAE → KSampler → SaveImage。
参数我直接抄官方 demo 的:4 步,cfg=1,euler,simple。
对,你没看错,4 步。
我之前跑 SDXL 最少也要 20 步起步,跑 Flux dev 标准是 20-50 步。这个模型说 4 步就够了。我本能地不信。
我敲了一个测试提示词——一个雪地里穿比基尼的女生,手里举着写着"Ernie image Turbo"的牌子(对,顺便测一下文字渲染)——点击了生成。
总耗时 4.2 秒。
我把图放大看,牌子上的 "Ernie image Turbo" 七个字母,一个不差。
这个东西要知道有多变态——你去试试 SDXL 让它在图里写英文,十张有九张是火星文。Flux 好一些,但也经常缺字母漏笔画。
这玩意 4 步出图,英文一个字母都不错。
4 步出图的秘密
我去扒了一下论文,顺便查了几篇技术解读。
原始的 ERNIE-Image 是个 8B 参数的单流 DiT(Diffusion Transformer),架构上接近 Flux,需要 50 步推理。
Turbo 版是它的蒸馏版本——用原模型当老师,把 50 步的采样轨迹"压缩"到 8 步。我们这个工作流更激进,直接用 4 步就能出接近原版的效果。
说人话就是:原模型像是慢慢走到终点的人,Turbo 版是抄了条近路直接飞过去的人。
路径短了,自然就快了。
配上 GGUF Q6_K 量化(模型体积从 15GB 压到 6GB 多),3080 这种 10GB 的卡也能流畅跑 1280×768。这在两年前是不敢想的事。
我连续测了十几个场景
人像、风景、科幻城市、动物特写、水墨画、二次元……几乎每个领域它都能拿出 80 分以上的成绩。
特别值得说的是两点:
第一,中文渲染真的能打。
以前想让 AI 在图里写中文,基本是做梦。这个模型你让它写"你好世界",它真能写出来,而且笔画工整。这对国内做海报、做短视频封面、做表情包的兄弟姐妹,简直是核弹。
第二,指令跟随能力强。
你说"左边一只橘猫,右边一只黑猫,中间放一个红苹果",它真能按你说的布局。不像有些模型,你说三个东西,它随机给你画两个。
然后我想到一个问题
既然是本地跑的,既然是 Apache 2.0 开源的,既然模型权重完全在我电脑里……
那它有内容限制吗?
答案是——没有。
没有云端审核,没有使用日志,没有"您的请求违反了社区准则"的弹窗。你输入什么,它生成什么。
这在 2026 年的今天,已经是一种奢侈品了。
我不是说要大家去搞什么不正经的东西。我想说的是——创作的边界,应该由创作者自己决定,而不是由一个远在云端的审核模型决定。
画一张解剖学参考图不行吗?画一个艺术人体不行吗?画一个血腥的战争场面不行吗?
这些在线工具全给你拦下来,理由是"可能违反内容政策"。
本地模型不会管你这些。你的显卡,你的电脑,你说了算。
硬件门槛其实不高
很多人一看"8B 参数"就退缩了,觉得自己那张 3060 带不动。
实测告诉你:
- 10GB 显存(3080/4070 级别):Q6_K 量化版本,1280×768 分辨率,4 秒左右一张
- 8GB 显存(3060Ti/4060):Q4_K_M 量化版本,1024×1024 分辨率,勉强能跑
- 24GB 显存(3090/4090):直接上 fp8 或 bf16 全量版本,效果更好
GGUF 量化的好处是你可以按自己显卡挑版本,不用硬扛全量权重。
我给它做了个一键启动的 Gradio 版本
ComfyUI 对小白确实不友好,节点连来连去看着就头大。
所以我把这个工作流包了个 Gradio 界面——左边填提示词、调分辨率、调步数,右边直接出图。双击一个 bat 文件就能启动,浏览器自动打开。
不用装 Python 环境,不用 pip install 一堆东西,整包打开即用。
整合包里包含:
- 便携版 Python 3.12 + PyTorch + CUDA
- ComfyUI 核心 + GGUF 节点
- ERNIE-Image-Turbo Q6_K 模型权重
- Flux2 VAE + ministral-3-3b 文本编码器
- 一键启动的 Gradio 网页界面
下载下来解压,双击 01-run.bat,等模型加载完,你就在浏览器里看到界面了。
写在最后
过去三年,我见证了太多"开源了但没完全开源"的国产模型。
百度这次让我有点意外。Apache 2.0、完整权重、社区适配 ComfyUI、配合 Unsloth 做 GGUF 量化——整个配套做得非常到位。
不管你对这个公司过去的印象如何,至少这一次,他们做了一件正确的事。
而我们做为用户,能享受到的就是:一张 10GB 的显卡,4 秒出一张接近商业模型水准的图,完全本地,完全私有,完全你说了算。
在一个云端 AI 越管越严的时代,这已经很难得了。
整合包下载:xueshu.fun/7263
打开即用,不折腾,你的电脑你做主。