ERNIE-Image 开源 SOTA !消费级显卡搞定顶级渲染、高密度文本绘图

4 阅读6分钟

ERNIE-Image 是由百度文心大模型团队开发的一款开源文生图模型。它基于单流 Diffusion Transformer(DiT)架构,并配有一个轻量级 Prompt Enhancer,用于将简短输入扩展为更丰富、更结构化的描述。在仅有 8B DiT 参数规模的前提下,达到了开源文生图模型中的领先水平。

整体来看,它在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。同时,模型也覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格。

经过电影网、凤凰网、蜻蜓 FM、瑛麒动漫、蜂鸟 AI 等 30 多个知名企业、社区和创作平台,20 位艺术创作设计师为期两周的内测与反馈,今天,我们正式开源 ERNIE-Image 模型,参数量仅 8B,24GB 显存的消费级显卡即可生成媲美顶级商业模型的超真实、复杂图像。

重新定义消费级开源文生图边界

指令遵循、文字渲染能力​上​,ERNIE-Image 从容驾驭复杂细节约束、多主体关系和知识密集型描述;更在中英日韩多语言生成中实现了​字形清晰与笔画精准​,无论是海报排版、学术图表的严谨逻辑,还是漫画分镜的叙事张力,皆能保持完美的布局组织与画面秩序,这两项能力在开源模型中均排名第一。

以小搏大,消费级可跑的​架构设计​,​仅 8B 参数在多项 benchmark 上全面超越同类开源模型,媲美商用模型诸如 NanoBanana 系列。极致的参数效率优化,将高精度生成的门槛降至 24GB VRAM 的消费级 GPU 即可流畅运行,显著降低研究与部署门槛,打造每一位创作者触手可及的开源工具。

风格表现​**​上,ERNIE-Image 风格覆盖广,创意边界宽​,**支持写实摄影与风格化视觉表达,包括动漫、二次元、电影感胶片、分镜截图、老照片等多元风格,尤其在角色一致性和情绪表达上表现突出。

当前,ERNIE-Image 的模型权重、推理代码已在Hugging Face全部开源,遵循 Apache2.0 协议,**​已经支持并上线 ComfyUI Workflow,同时联合 Unsloth 推出 GGUF 量化方案​,**欢迎大家使用体验,尽情创作!

国际基准通杀,开源全面SOTA

我们在多个公开的国际基准上对 ERNIE-Image 进行了全面评估,包括用于通用图像生成的 ​GenEval​、​OneIG​(中英文),以及用于复杂指令与文字渲染的 ​LongText-Bench​。

评估结果表明,在所有开源模型中,ERNIE-Image 的综合表现处于领先位置,展现出其在通用图像生成、双语理解、复杂指令执行等各类任务中的强大能力。尤为突出的是,在文字渲染能力上,ERNIE-Image 取得了开源模型的 SOTA 效果,与 NanoBanana 等商业闭源模型同处第一梯队。

640.jpeg 640 (3).jpeg640 (2).jpeg 640 (1).jpeg

在最新 SuperCLUE-Image 中文文生图测评中,拿下国内第一、全球第四的成绩。其中,在图文一致性、汉字生成两类细分榜单中均为国内榜首。

SuperCLUE-Image 的测评涵盖 Nano Banana 2 、Nano Banana Pro、GPT-Image-1.5、ERNIE-Image 等共 18 个国内外主流模型,在 “基础能力 + 应用能力” 多维测评框架下,覆盖图像质量、现实复现、创作与推理等关键维度,并进行人类一致性评估。

在国产主流大模型中:ERNIE-Image 以 76.37 分分位居国产大模型第一,紧跟 OpenAI 的 GPT-Image-1.5 (77.63 分),展现出国内第一梯队的强劲实力。Qwen-Image-2.0-Pro 和 豆包-Seedream-5.0-lite 分别以 75.68 分和 75.65 分位居国内第二、三名。

在具体维度能力对比中:图文一致性上,ERNIE-Image 以 65.00 分位居国内第一,与 Nano Banana 2 、Nano Banana Pro 同属第一梯队;汉字生成上,ERNIE-Image 以 85.25 分位居国内第一,世界第二,仅次于 Nano Banana Pro。

七大亮点 Showtime

  • ​懂指令:​​复杂提示词,​精准遵循

ERNIE-Image 能够精准理解和遵循复杂提示词,让复杂图像生成不再是难题,指令遵循能力在内测期间受到用户的一致好评。

  • ​动漫风格:​万千角色,信手拈来

ERNIE-Image 能高质量展现二次元漫画角色,支持单主体角色精准还原,多主体角色同框稳定生成,同时能生成​非常逼真的漫画风格​,笔触、网点、分镜构图全都到位,接近专业漫画稿水准。

  • 字字清晰:达到开源第一水平

ERNIE-Image 在 LongText-Bench 评测中取得平均 0.9733 的高分,超过 Qwen-Image(0.9445)、Z-Image(0.9355)、FLUX.2 Klein 9B(0.5413),​位居全球第一​。中、英、日、韩,复杂示意图、学术图表、海报等场景,字形清晰、笔画准确、支持密集文字渲染。

  • 胶片质感:有情绪、有温度、有颗粒感

当下市面上的图像模型追求的“好看”,往往趋同:高饱和、过度锐化、千篇一律的 AI 感。而 ERNIE-Image 呈现的,是另一种好看——一种更具辨识度的审美取向。它不过度修饰,不刻意讨好,而是带着胶片特有的颗粒质感,有情绪流淌,有温度留存。

  • 组图表情包:“连拍叙事”萌系组图

ERNIE-Image 具备“组图表达能力”,能围绕一个情绪或梗,自动拆分成多帧连贯画面,形成节奏感强的组图表达。结合细腻的风格控制与文本理解能力,成为真正的“萌点 + 节奏 + 表达”组图表情包生成器。 

  • 海报生成:文字不乱,出图即用

构图大气、视觉冲击力强、文字位置准确、内容不乱码——这四件事,是当前海报生成中最难同时做到的。但 ERNIE-Image 做到了。每一张生成的海报,都离“可用”更近一步。

  • 漫画分镜:帧帧到位,对白清晰

人物表情张力,动作还原准确,场景切换自然,对白气泡排版清晰——就连日语文字,也能精准呈现。ERNIE-Image 让漫画分镜的整体表现力和还原度上显著领先于其他开源模型。

ERNIE-Image 的朋友圈

在 ERNIE-Image 内测期间,我们邀请了来自设计、动漫、非遗等不同领域的知名专家,结合实际应用场景对 ERNIE-Image 展开了测评,获得了众多好评。

欢迎进行体验、测试!

  • 技术 Blog:

ernie.baidu.com/blog/zh/pos…

  • 星河社区 AI Studio:

aistudio.baidu.com/ernieimage

  • Hugging Face Demo:

huggingface.co/spaces/baid…

  • Hugging Face:

huggingface.co/baidu/ERNIE…

huggingface.co/baidu/ERNIE…

  • Github 地址:

github.com/baidu/ernie…

  • 魔搭社区:

modelscope.cn/models/Padd…

modelscope.cn/models/Padd…