最近,我们的全新文生图开源模型——ERNIE-Image正式与大家见面了。它基于 8B 参数的 DiT 架构,在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格,因此尤其适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。
- ERNIE-Image - SFT 模型:更强的通用能力和指令忠实度,推理步数 50 步
- ERNIE-Image-Turbo - 极速模型:通过DMD和 RL 优化,仅需 8 步即可实现更快的速度和更高的美学质量
今天,我们带来一篇超友好的ComfyUI实战教程,手把手带你完成 ERNIE-Image 的部署与使用。即使是新手,也能轻松上手!
致谢:感谢 ComfyUI 官方对 ERNIE-Image 适配的大力支持。
ComfyUI 相关仓库:
-
魔搭:
-
Huggingface:
-
Comfy Cloud :
-
工作流下载:
安装 ComfyUI 与权重下载
1.1 网页版安装
- 网页版安装需要拉取最新版本的 ComfyUI 仓库并配置相关的 Python 环境。
### 拉取最新的ComfyUI仓库:
git clone https://github.com/Comfy-Org/ComfyUI.git
### 配置ComfyUI运行的环境并安装最新的包含有ERNIE-Image的template:
cd ComfyUI && pip install -r requirements.txt && pip install comfyui-workflow-templates==0.9.56
1.2 客户端安装
下载 ComfyUI 最新版本 v0.19.1
1.3 模型权重下载
让 ERNIE-Image-Turbo 在服务器端/本地顺利运行,你需要在 ComfyUI 中正确配置四个核心组件:扩散模型、文本编码器、PromptEnhancer和变分自编码器(VAE)。从 HuggingFace 下载 ERNIE-Image 核心模型权重文件,模型地址:
模型权重放置在 ComfyUI 的相应目录下:
- 扩散模型(Diffusion Model)
- 文件:ernie-image.safetensors/ernie-image-turbo.safetensors
- 路径:ComfyUI/models/diffusion_models/
- 文本编码器(Text Encoder)
- 文件:ministral-3-3b.safetensors
- 路径:ComfyUI/models/text_encoders/
- Prompt 优化器(Prompt Enhancer)
- 文件:ernie-image-prompt-enhancer.safetensors
- 路径:ComfyUI/models/text_encoders/
- 变分自编码器(VAE)
- 文件:flux2-vae.safetensors
- 路径:ComfyUI/models/vae/
将上述四个文件分别放入 ComfyUI 的对应目录后,即可开启 ComfyUI 工作流实践。
标准流工作
当前 ComfyUI 新版本已经支持了 ERNIE-Image 的标准工作流,用户可以直接使用官方推荐工作流来获得最佳画质和速度。
2.1 加载模型节点
在 ComfyUI 中,从左侧模板库选择“Ernie Image Turbo:文生图”或者“Ernie Image:文生图”,系统会自动加载已放入对应目录的核心组件。

如果前述文件已经放入正确位置后,相关模型会自动加载,无需手动配置,直接输入 Prompt,即可启动生图。

需要特别关注的是:当前 PE 节点作为 ERNIE-Image 的默认选项,其使用的加载器和 Text Encoder 加载器都是使用的 CLIPLoader 来加载模型权重。
- Text Encoder 节点加载的权重文件:ministral-3-3b.safetensors 或者 ernie-image-prompt-enhancer.safetensors
- Prompt Enhancer 节点加载的权重文件:ernie-image-prompt-enhancer.safetensors
2.2 PE 设置
ERNIE Image 最适合长、详细、结构良好的提示——更丰富的描述往往会产生更好的生成质量、更精确的教学保真度,以及更忠实地呈现复杂的布局或叙事内容。在实践中,非常建议用户开启 PE,官方节点默认是开启 PE。

PE 节点的参数设置可以通过点击节点图右上角打开子图进一步设置,关键参数配置如下:
- 最大长度(max_length):设置为 1536~2048,如果设置过小,可能会导致长文本输入信息存在遗漏的风险,但也不建议设置太大。
- 采样模式:开启。
- 温度系数(temperature):设置为 0.6。
- top_p:设置为 0.8。
- thinking mode: 关闭。

2.3 采样器设置
打开子图后,同样可以看到采样器的相关配置项,具体配置推荐如下:
- 步数(steps): ERNIE-Image-Turbo 版本建议设置为8,ERNIE-Image 版本建议设置为50。
- 引导系数(CFG):ERNIE-Image-Turbo 版本建议设置为1.0,ERNIE-Image 版本建议设置为4.0。
- 采样器(Sampler):推荐使用euler。
- 调度器(Scheduler):推荐 sgm_uniform 或者默认的simple。

2.4 分辨率设置
ERNIE-Image/ERNIE-Image-Turbo 模型在下列分辨率优化效果比较好,当前避免直接生成 2k+ 分辨率。
- 1024x1024
- 848x1264
- 1264x848
- 768x1376
- 896x1200
- 1376x768
- 1200x896
GGUF量化版工作流
如果你使用是低显存设备,则需要采样Unsloth给出的 GGUF 量化方案,Unsloth 的 GGUF 量化权重可以从 Huggingface 中下载。
GGUF(Unsloth)相关仓库:
- ERNIE-Image GGUF(扩散模型):
- ERNIE-Image-Turbo GGUF(扩散模型):
- Text Encoder GGUF:
首先,你需要在 ComfyUI 中通过 ComfyUI Manager安装 ComfyUI-GGUF 插件。

安装后需要重启服务并刷新页面,从前面的网页中下载需要的的量化模型,放入到 ComfyUI/models/unet/文件夹下。然后双击空白处-> 搜索 GGUF-> 点击 Unet Loader(GGUF),即可使用本地的量化模型;使用 CLIP Loader(GGUF)节点加载文本编码器。
说明:Prompt Enhancer 的 GGUF 版本当前暂未提供。
