新国产AI绘画模型来了：Lumina Image 2.0，提示词理解能力超越Flux！最近出来一个新的国产AI绘画模型：

大家好，我是每天分享AI绘画的萤火君！

最近出来一个新的国产AI绘画模型：Lumina Image 2.0，由上海AI Lab推出，经萤火君实测，其在保持文本和图像一致性等方面超越了Flux，而且它的体积更小，还支持负向提示词、中日韩多语种提示词，未来可能有比较大的应用空间，特别分享给大家。

效果展示

废话不多说，先看效果。

Lumina Image 2.0介绍

Lumina-Image 2.0 是一个统一高效的图像生成模型。统一指的是它在文本和图像一致性方面做得特别好，也就是模型生成的图像更为遵从提示词的描述，实测超越Flux.1 Dev；高效指的是模型的体积比较小但生成图像的质量比较高、生成图片的速度相对也比较快，SDXL基础模型的参数量是35亿，Flux.1 Dev的参数量是120亿，而Lumina-Image 2.0的参数量只有26亿，但是在广泛的生成任务中其图片质量还保持的不错。

Lumina-Image 2.0 基于Diffusion Transfomer，这与Flux.1模型原理一致，它使用的VAE（图像编解码器）也与Flux.1 Dev和Flux.1 Schnell使用的相同，不过它使用的文本编码器是Gemma，这提升了文本和图像的对齐效果。

更为重要的一点，Lumina-Image 2.0 是开源的，基于Apache 2.0，目前Github上已经提供了微调代码。而目前AI绘画王者Flux.1有三个版本：最好的Pro只能通过API使用，效果略差的Dev可以免费但不能商用，效果较差的Schnell则可以免费商用，不过大家都不喜欢。虽然目前Lumina-Image 2.0的图片质量无法达到Flux.1的水平，但是经过社区的微调，或许可以在某些任务中超越Flux.1 Dev，也可以期望其在未来的版本中能够做得更好。

环境准备

Lumina-Image 2.0 可以独立运行：

独立程序：github.com/Alpha-VLLM/…

原版模型：huggingface.co/Alpha-VLLM/…

Lumina-Image 2.0 也已经支持在ComfyUI中使用，我将以ComfyUI为例进行演示（工作流见文末）：

模型下载：huggingface.co/Comfy-Org/L…

模型下载后放到基础模型目录即可，一般是 ComfyUI/models/checkpoints 目录。

下载不方便的同学可以通过我整理的网盘：

链接：pan.quark.cn/s/f52d8fccd… 提取码：V8y8。

没有ComfyUI的同学建议先使用云环境来运行，无需复杂且容易出错的环境配置，待有应用价值了，再到本地折腾也不迟。我的云镜像：haoee.com/application…

使用方法

在ComfyUI中打开基础工作流：

如上图所示，这个工作流和我们常用的SD基础工作流没有太大区别，加载模型、填写提示词、设置采样参数等等都是差不多的。这里简单介绍下这几个采样参数：

采样器/调度器：默认为 eluer/simple，也可以尝试 res_multistep/simple、 ipndm/ays+ 等的组合。

采样步数：25-40，不同的生成任务可能需要进行调整，建议先使用25和40分别测试。

CFG：4-8，实测过高的CFG可能导致生成空白图。

图片尺寸：根据官方在huggingface的演示程序，高和宽建议范围：512- 2048。

还有一个需要额外注意的点：Lumina Image 2.0 支持编写负向提示词，这一点与Flux.1模型有很大不同，我们生成内容有了更强的控制能力。

系统提示词

Lumina-Image 2.0 支持一段系统提示词，我们可以在描述图像的文本提示词前增加一段系统声明。

比如默认的：

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.

翻译：你是一个助手，设计用来根据文本提示或用户提示生成具有优越图像-文本对齐度的高质量图像。

我们可以更改这段系统提示词，比如我们想生成一些小孩风格的画作，可以这样写系统提示词：

You are an inexperienced artist, producing primitively drawn but cute images, based on user prompt

翻译：你是一位缺乏经验的艺术家，根据用户提示创作出虽简单质朴但可爱的图像。

我们也可以不添加这段系统提示词，模型一般也能很好的完成推理任务，不过对于某些特定的约束，使用系统提示词可能会更好的强化这些约束的生成。

中文提示词

Lumina Image 2.0 模型中可以直接使用中文提示词，这一点对于我们国人来说特别友好！据说它还支持日语、韩文，大家可以试试看。

FP8

如果你觉得 Lumina-Image 2.0 模型的体积还是有点大，本地显存不够用，我们还有招！

默认的 all in one 模型中包含了扩散模型、VAE模型和文本编码器模型，其中扩散模型的参数精度是bf16，我们可以将它们分开，使用更低精度的数字，更低精度意味着我们使用的显存会更少一些，当然生成图片的质量可能会有一点损失。下边是我改造的一个fp8工作流。

实际运行效果对比：

根据网友反馈，推理期间的显存使用：FP8大约 6.2G，BF16大约 8.5G。

weight_dtype可以选择：fp8_e4m3fn、fp8_e4m3fn_fast、fp8_e5m2，其中fp8_e4m3fn_fast可以加速推理，在这个例子中，FP8使用大约7.5秒钟，BF16使用大约10.7秒钟，提速30%。

与Flux对比

这里将Lumina Image 2.0与目前最流行的Flux.1 Dev模型进行对比，虽然这对于Lumina有点不公平，Lumina Image 2.0的参数量比Flux.1 Dev要少很多，Flux.1 Dev 也不是一个完全免费的版本，但是从用户角度来说，模型能不能打才是最重要的。

因为Lumina Image 2.0刚发布不久，还没有各种ControlNet、IPAdapter、LoRA等，所以我们仅从文生图的方面进行对比。但是即便如此，我们也可以对模型的能力有比较清晰的了解。如果模型有几把刷子，未来或许可以撑起一片天，不枉我们花时间来研究它。

这里采用的对比方法：两个模型，使用相同的提示词，生成相同大小的图片，针对肉眼清晰可见的方面，进行对比。因为能力、精力有限，使用的案例比较少，可能不够全面，但也能够说明问题，至少在具体案例的场景下是结果是很明确的。

1、一致性

这里我们通过一张人脸特写来对比模型对提示词的遵从性，也可以说是提示词和生成图片的一致性。

提示词：

a beautiful woman with her face half covered by golden paste, the other half is dark purple. on eye is yellow and the other is green. closeup, professional shot

翻译：一位美丽的女性，她的脸一半被金色的膏体覆盖，另一半是深紫色。她的一只眼睛是黄色的，另一只眼睛是绿色的。这是一张特写的专业照片。

注意看左右面部的涂抹、眼睛的颜色，Lumina-Image-2.0在文字和图像的对齐上表现明显更好。

在这个对比中，Lumina-Image-2.0更胜一筹！

2、风格多样性

如果你经常使用Flux.1模型，一定会遇到默认生成动漫图片的问题，又或者你生成真实场景图片的时候，背景常常是模糊的，这时候我们可能需要通过提示词或者一些风格LoRA来影响图片的生成风格。Flux.1虽然能够生成各种各样风格的图片，但是它有时不能很好的区分它们，或者说它的风格控制有点难。

提示词：

Watercolour of very old George Clooney standing on a cliff, holding a sword and pointing it upwards, ships visible in the water below, purple lightning

翻译：一幅水彩画，画中是非常年老的乔治·克鲁尼站在悬崖上，手持一把剑并向上指着。画面下方的水中可以看到船只，紫色的闪电划破天空。

注意看水彩的效果，Lumina-Image-2.0渲染的更好。另外对于人物的着装、持剑的方向，Lumina对提示词遵从的也更好，这一点我们在一致性对比中提过了。

但是Lumina-Image-2.0的缺点也很明显，细节粗糙，特别是人脸惨不忍睹，这和SD1.5、SDXL等模型绘制较小人脸时容易畸形，如出一辙。不过我们可以通过局部细化的方式来缓解这个问题（工作流见文末）。

Flux.1 在真实场景和各种常见风格方面可能都经过了精细的蒸馏微调，相比之下，Lumina 对于任何风格的调整都不是那么细致，美学上都要差一些，相对原始，没有那么多各种正确，这可能也是个优势，对于大多数非传统风格而言，Lumina会比Flux更胜一筹，用户还可以选择对不同的场景进行微调。

3、画手

对于AI画手容易出现畸形的问题，Flux.1模型已经在很大程度上解决了这个问题，我也曾经分享过多篇使用Flux模型来修脸修手的工作流，有兴趣的同学可以发消息“工作流”到公众号“萤火AI绘画”来获取它们。

在画手的问题上，Lumina表现如何呢？

提示词：

A cheerful Asian girl wearing a casual white dress stands in a sunlit café, raising her right hand to wave at the camera with a warm smile. Her fingers are perfectly shaped, and the natural lighting highlights her flowing hair. The background features a blurred coffee counter with steaming cups, creating a cozy and dynamic atmosphere, ultra-realistic photography, 8K resolution, depth of field.

翻译：一个活泼的亚洲女孩穿着一件休闲的白色连衣裙，站在阳光照耀的咖啡馆里，举起右手向镜头挥手，脸上洋溢着温暖的微笑。她的手指线条优美，自然光线使她的秀发更加动人。背景是模糊的咖啡柜台和冒着热气的杯子，营造出温馨而充满活力的氛围。超逼真的摄影，8K分辨率，景深效果。

仔细看，Lumina Image 2.0生成手部多少还是有点变形了，相比Flux.1，Lumina出现坏手的概率还是很高的，但是相比之前的SD1.5、SDXL模型，Lumina Image 2.0还是超越了很多的，坏的不是很严重。

4、写字

再看一下模型的文字生成能力。

提示词：

a young curly haired caucasian Belarusian woman sipping from a large glass of beer. She wears a blue sweatshirt with the name "I'm with Shmoopie" on it in orange lettering. On top of her head sits a relaxed, content-looking calico cat with its eyes closed. The background is a simple solid teal, giving the scene a minimalist yet cute and cozy feel. Tiny stars float above the cat, adding a whimsical touch to the peaceful and laid-back atmosphere.

翻译：一位年轻的白人卷发的白俄罗斯女性正品尝着一大杯啤酒。她穿着一件蓝色连帽衫，上面用橙色字母写着“I'm with Shmoopie”。她的头上坐着一只放松的、心满意足的加州猫，眼睛紧闭。背景是简单的深蓝色，给这个场景带来极简而又可爱舒适的感觉。星星点点漂浮在猫的上方，为宁静放松的氛围增添了一丝奇思妙想。

可以看到 Lumina-Image 2.0 可以生成文字，但是生成的文字错误还是有点多，Flux.1 Dev 基本没有错误。

再看一个简单的：

A chubby brown bear wearing a red scarf, holding a wooden sign engraved with 'Hello' in glowing calligraphy, standing on a bustling city street with neon shop signs and floating cherry blossom petals, cinematic lighting, 3D cartoon style with soft pastel colors, trending on ArtStation, ultra-detailed textures on fur and wood, isometric perspective, morning golden hour ambiance

即使简单的文字，Lumina Image 2.0 也很容易出现错误。

不过以 2.6 B 的体量，Lumina Image 2.0 能做到现在这样，也已经很不错了。

5、动漫

可爱的动漫女孩，有着巨大的毛茸茸的耳廓狐耳朵和一条大大的蓬松尾巴，金色凌乱的长发，蓝色的眼睛，穿着女仆装，搭配一条长长的黑色金叶图案连衣裙和白色围裙，嘴巴张开着，正在将一个装饰精美的黑森林蛋糕（上面插着蜡烛）放在一座由烛光照亮的古老维多利亚式豪宅的餐桌上。明亮的窗户外面是雾蒙蒙的森林，房间里到处都是昂贵的物品，墙上挂着画作。

cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open placing a fancy black forest cake with candles on top of a dinner table of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere there are paintings on the walls

Lumina-Image-2.0在光影处理上表现更佳，注意烛光和窗户透进来的光线，它们营造出更加真实的氛围，但是细节处理有畸形，注意烛台底座和墙上的画像。

而Flux.1 Dev 在色彩鲜艳度和背景细腻度上有优势，背景事物的绘制效果也比较好，但光影处理稍显不足。

6、更多对比

这里我又做了一些对比，大家可以参考下。

（1）瓶子里的宇宙

提示词：

a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it

（2）趴在草地上的女人

提示词：

woman laying in a grass field, beagle lying next to her, smile on her face, yellow sundress, sunglasses in

hand, professional photograph

总结

Lumina-Image 2.0的优势：

提示词与图像高度对齐、支持中文提示词、多样性支持程度高、开源可商用、模型体积小、推理速度快。

Lumina-Image 2.0的缺点：

图片细腻程度不够、美学程度不足、社区支持不足。

总体来说，Lumina Image 2.0在生成图像的质量和多样性方面表现出色，在理解图像内容和结构方面比较强大，在处理颜色、形状和纹理等细节方面也做得非常好，能很好地理解和描述图像的特征。不过它生成图片的质量还达不到Flux.1的水平，主要体现在：美学程度不足、生成图片细腻程度不够，或许可以通过微调训练进行优化，或者在未来的版本中得到改善，期待官方发布一些controlnet和ipadapter的工具。

资源下载

本文用到的插件、基础工作流和模型都已经整理好，给公/众\号 “萤火AI绘画” 发消息 “Lumina” 即可获取下载地址。

另外我也总结了很多AI绘画的实战经验，开发了很多更加好用的高级工作流，如有需要请点击下方链接：xiaobot.net/post/033402…

以上就是本文的主要内容，如有问题欢迎留言交流！

参考文章：

comfyanonymous.github.io/ComfyUI_exa…