新国产AI绘画模型来了:Lumina Image 2.0,提示词理解能力超越Flux!

234 阅读13分钟

大家好,我是每天分享AI绘画的萤火君!

最近出来一个新的国产AI绘画模型:Lumina Image 2.0,由上海AI Lab推出,经萤火君实测,其在保持文本和图像一致性等方面超越了Flux,而且它的体积更小,还支持负向提示词、中日韩多语种提示词,未来可能有比较大的应用空间,特别分享给大家。

效果展示

废话不多说,先看效果。

Lumina Image 2.0介绍

Lumina-Image 2.0 是一个统一高效的图像生成模型。统一指的是它在文本和图像一致性方面做得特别好,也就是模型生成的图像更为遵从提示词的描述,实测超越Flux.1 Dev;高效指的是模型的体积比较小但生成图像的质量比较高、生成图片的速度相对也比较快,SDXL基础模型的参数量是35亿,Flux.1 Dev的参数量是120亿,而Lumina-Image 2.0的参数量只有26亿,但是在广泛的生成任务中其图片质量还保持的不错。

Lumina-Image 2.0 基于Diffusion Transfomer,这与Flux.1模型原理一致,它使用的VAE(图像编解码器)也与Flux.1 Dev和Flux.1 Schnell使用的相同,不过它使用的文本编码器是Gemma,这提升了文本和图像的对齐效果。

更为重要的一点,Lumina-Image 2.0 是开源的,基于Apache 2.0,目前Github上已经提供了微调代码。而目前AI绘画王者Flux.1有三个版本:最好的Pro只能通过API使用,效果略差的Dev可以免费但不能商用,效果较差的Schnell则可以免费商用,不过大家都不喜欢。虽然目前Lumina-Image 2.0的图片质量无法达到Flux.1的水平,但是经过社区的微调,或许可以在某些任务中超越Flux.1 Dev,也可以期望其在未来的版本中能够做得更好。

环境准备

Lumina-Image 2.0 可以独立运行:

独立程序:github.com/Alpha-VLLM/…

原版模型:huggingface.co/Alpha-VLLM/…

Lumina-Image 2.0 也已经支持在ComfyUI中使用,我将以ComfyUI为例进行演示(工作流见文末):

模型下载:huggingface.co/Comfy-Org/L…

模型下载后放到基础模型目录即可,一般是 ComfyUI/models/checkpoints 目录。

下载不方便的同学可以通过我整理的网盘:

链接:pan.quark.cn/s/f52d8fccd… 提取码:V8y8。

没有ComfyUI的同学建议先使用云环境来运行,无需复杂且容易出错的环境配置,待有应用价值了,再到本地折腾也不迟。我的云镜像:haoee.com/application…

使用方法

在ComfyUI中打开基础工作流:

如上图所示,这个工作流和我们常用的SD基础工作流没有太大区别,加载模型、填写提示词、设置采样参数等等都是差不多的。这里简单介绍下这几个采样参数:

采样器/调度器:默认为 eluer/simple,也可以尝试 res_multistep/simple、 ipndm/ays+ 等的组合。

采样步数:25-40,不同的生成任务可能需要进行调整,建议先使用25和40分别测试。

CFG:4-8,实测过高的CFG可能导致生成空白图。

图片尺寸:根据官方在huggingface的演示程序,高和宽建议范围:512- 2048。

还有一个需要额外注意的点:Lumina Image 2.0 支持编写负向提示词,这一点与Flux.1模型有很大不同,我们生成内容有了更强的控制能力。

系统提示词

Lumina-Image 2.0 支持一段系统提示词,我们可以在描述图像的文本提示词前增加一段系统声明。

比如默认的:

You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.

翻译:你是一个助手,设计用来根据文本提示或用户提示生成具有优越图像-文本对齐度的高质量图像。

我们可以更改这段系统提示词,比如我们想生成一些小孩风格的画作,可以这样写系统提示词:

You are an inexperienced artist, producing primitively drawn but cute images, based on user prompt

翻译:你是一位缺乏经验的艺术家,根据用户提示创作出虽简单质朴但可爱的图像。

我们也可以不添加这段系统提示词,模型一般也能很好的完成推理任务,不过对于某些特定的约束,使用系统提示词可能会更好的强化这些约束的生成。

中文提示词

Lumina Image 2.0 模型中可以直接使用中文提示词,这一点对于我们国人来说特别友好!据说它还支持日语、韩文,大家可以试试看。

FP8

如果你觉得 Lumina-Image 2.0 模型的体积还是有点大,本地显存不够用,我们还有招!

默认的 all in one 模型中包含了扩散模型、VAE模型和文本编码器模型,其中扩散模型的参数精度是bf16,我们可以将它们分开,使用更低精度的数字,更低精度意味着我们使用的显存会更少一些,当然生成图片的质量可能会有一点损失。下边是我改造的一个fp8工作流。

实际运行效果对比:

根据网友反馈,推理期间的显存使用:FP8大约 6.2G,BF16大约 8.5G。

weight_dtype可以选择:fp8_e4m3fn、fp8_e4m3fn_fast、fp8_e5m2,其中fp8_e4m3fn_fast可以加速推理,在这个例子中,FP8使用大约7.5秒钟,BF16使用大约10.7秒钟,提速30%。

与Flux对比

这里将Lumina Image 2.0与目前最流行的Flux.1 Dev模型进行对比,虽然这对于Lumina有点不公平,Lumina Image 2.0的参数量比Flux.1 Dev要少很多,Flux.1 Dev 也不是一个完全免费的版本,但是从用户角度来说,模型能不能打才是最重要的。

因为Lumina Image 2.0刚发布不久,还没有各种ControlNet、IPAdapter、LoRA等,所以我们仅从文生图的方面进行对比。但是即便如此,我们也可以对模型的能力有比较清晰的了解。如果模型有几把刷子,未来或许可以撑起一片天,不枉我们花时间来研究它。

这里采用的对比方法:两个模型,使用相同的提示词,生成相同大小的图片,针对肉眼清晰可见的方面,进行对比。因为能力、精力有限,使用的案例比较少,可能不够全面,但也能够说明问题,至少在具体案例的场景下是结果是很明确的。

1、一致性

这里我们通过一张人脸特写来对比模型对提示词的遵从性,也可以说是提示词和生成图片的一致性。

提示词:

a beautiful woman with her face half covered by golden paste, the other half is dark purple. on eye is yellow and the other is green. closeup, professional shot

翻译:一位美丽的女性,她的脸一半被金色的膏体覆盖,另一半是深紫色。她的一只眼睛是黄色的,另一只眼睛是绿色的。这是一张特写的专业照片。

注意看左右面部的涂抹、眼睛的颜色,Lumina-Image-2.0在文字和图像的对齐上表现明显更好。

在这个对比中,Lumina-Image-2.0更胜一筹!

2、风格多样性

如果你经常使用Flux.1模型,一定会遇到默认生成动漫图片的问题,又或者你生成真实场景图片的时候,背景常常是模糊的,这时候我们可能需要通过提示词或者一些风格LoRA来影响图片的生成风格。Flux.1虽然能够生成各种各样风格的图片,但是它有时不能很好的区分它们,或者说它的风格控制有点难。

提示词:

Watercolour of very old George Clooney standing on a cliff, holding a sword and pointing it upwards, ships visible in the water below, purple lightning

翻译:一幅水彩画,画中是非常年老的乔治·克鲁尼站在悬崖上,手持一把剑并向上指着。画面下方的水中可以看到船只,紫色的闪电划破天空。

注意看水彩的效果,Lumina-Image-2.0渲染的更好。另外对于人物的着装、持剑的方向,Lumina对提示词遵从的也更好,这一点我们在一致性对比中提过了。

但是Lumina-Image-2.0的缺点也很明显,细节粗糙,特别是人脸惨不忍睹,这和SD1.5、SDXL等模型绘制较小人脸时容易畸形,如出一辙。不过我们可以通过局部细化的方式来缓解这个问题(工作流见文末)。

Flux.1 在真实场景和各种常见风格方面可能都经过了精细的蒸馏微调,相比之下,Lumina 对于任何风格的调整都不是那么细致,美学上都要差一些,相对原始,没有那么多各种正确,这可能也是个优势,对于大多数非传统风格而言,Lumina会比Flux更胜一筹,用户还可以选择对不同的场景进行微调。

3、画手

对于AI画手容易出现畸形的问题,Flux.1模型已经在很大程度上解决了这个问题,我也曾经分享过多篇使用Flux模型来修脸修手的工作流,有兴趣的同学可以发消息“工作流”到公众号“萤火AI绘画”来获取它们。

在画手的问题上,Lumina表现如何呢?

提示词:

A cheerful Asian girl wearing a casual white dress stands in a sunlit café, raising her right hand to wave at the camera with a warm smile. Her fingers are perfectly shaped, and the natural lighting highlights her flowing hair. The background features a blurred coffee counter with steaming cups, creating a cozy and dynamic atmosphere, ultra-realistic photography, 8K resolution, depth of field.

翻译:一个活泼的亚洲女孩穿着一件休闲的白色连衣裙,站在阳光照耀的咖啡馆里,举起右手向镜头挥手,脸上洋溢着温暖的微笑。她的手指线条优美,自然光线使她的秀发更加动人。背景是模糊的咖啡柜台和冒着热气的杯子,营造出温馨而充满活力的氛围。超逼真的摄影,8K分辨率,景深效果。

仔细看,Lumina Image 2.0生成手部多少还是有点变形了,相比Flux.1,Lumina出现坏手的概率还是很高的,但是相比之前的SD1.5、SDXL模型,Lumina Image 2.0还是超越了很多的,坏的不是很严重。

4、写字

再看一下模型的文字生成能力。

提示词:

a young curly haired caucasian Belarusian woman sipping from a large glass of beer. She wears a blue sweatshirt with the name "I'm with Shmoopie" on it in orange lettering. On top of her head sits a relaxed, content-looking calico cat with its eyes closed. The background is a simple solid teal, giving the scene a minimalist yet cute and cozy feel. Tiny stars float above the cat, adding a whimsical touch to the peaceful and laid-back atmosphere.

翻译:一位年轻的白人卷发的白俄罗斯女性正品尝着一大杯啤酒。她穿着一件蓝色连帽衫,上面用橙色字母写着“I'm with Shmoopie”。她的头上坐着一只放松的、心满意足的加州猫,眼睛紧闭。背景是简单的深蓝色,给这个场景带来极简而又可爱舒适的感觉。星星点点漂浮在猫的上方,为宁静放松的氛围增添了一丝奇思妙想。

可以看到 Lumina-Image 2.0 可以生成文字,但是生成的文字错误还是有点多,Flux.1 Dev 基本没有错误。

再看一个简单的:

A chubby brown bear wearing a red scarf, holding a wooden sign engraved with 'Hello' in glowing calligraphy, standing on a bustling city street with neon shop signs and floating cherry blossom petals, cinematic lighting, 3D cartoon style with soft pastel colors, trending on ArtStation, ultra-detailed textures on fur and wood, isometric perspective, morning golden hour ambiance

即使简单的文字,Lumina Image 2.0 也很容易出现错误。

不过以 2.6 B 的体量,Lumina Image 2.0 能做到现在这样,也已经很不错了。

5、动漫

可爱的动漫女孩,有着巨大的毛茸茸的耳廓狐耳朵和一条大大的蓬松尾巴,金色凌乱的长发,蓝色的眼睛,穿着女仆装,搭配一条长长的黑色金叶图案连衣裙和白色围裙,嘴巴张开着,正在将一个装饰精美的黑森林蛋糕(上面插着蜡烛)放在一座由烛光照亮的古老维多利亚式豪宅的餐桌上。明亮的窗户外面是雾蒙蒙的森林,房间里到处都是昂贵的物品,墙上挂着画作。

cute anime girl with massive fluffy fennec ears and a big fluffy tail blonde messy long hair blue eyes wearing a maid outfit with a long black gold leaf pattern dress and a white apron mouth open placing a fancy black forest cake with candles on top of a dinner table of an old dark Victorian mansion lit by candlelight with a bright window to the foggy forest and very expensive stuff everywhere there are paintings on the walls

Lumina-Image-2.0在光影处理上表现更佳,注意烛光和窗户透进来的光线,它们营造出更加真实的氛围,但是细节处理有畸形,注意烛台底座和墙上的画像。

而Flux.1 Dev 在色彩鲜艳度和背景细腻度上有优势,背景事物的绘制效果也比较好,但光影处理稍显不足。

6、更多对比

这里我又做了一些对比,大家可以参考下。

(1)瓶子里的宇宙

提示词:

a bottle with a beautiful rainbow galaxy inside it on top of a wooden table in the middle of a modern kitchen beside a plate of vegetables and mushrooms and a wine glasse that contains a planet earth with a plate with a half eaten apple pie on it

(2)趴在草地上的女人

提示词:

woman laying in a grass field, beagle lying next to her, smile on her face, yellow sundress, sunglasses in

hand, professional photograph

总结

Lumina-Image 2.0的优势:

提示词与图像高度对齐、支持中文提示词、多样性支持程度高、开源可商用、模型体积小、推理速度快。

Lumina-Image 2.0的缺点:

图片细腻程度不够、美学程度不足、社区支持不足。

总体来说,Lumina Image 2.0在生成图像的质量和多样性方面表现出色,在理解图像内容和结构方面比较强大,在处理颜色、形状和纹理等细节方面也做得非常好,能很好地理解和描述图像的特征。不过它生成图片的质量还达不到Flux.1的水平,主要体现在:美学程度不足、生成图片细腻程度不够,或许可以通过微调训练进行优化,或者在未来的版本中得到改善,期待官方发布一些controlnet和ipadapter的工具。

资源下载

本文用到的插件、基础工作流和模型都已经整理好,给公/众\号 “萤火AI绘画” 发消息 “Lumina” 即可获取下载地址。

另外我也总结了很多AI绘画的实战经验,开发了很多更加好用的高级工作流,如有需要请点击下方链接:xiaobot.net/post/033402…


以上就是本文的主要内容,如有问题欢迎留言交流!

参考文章:

comfyanonymous.github.io/ComfyUI_exa…

www.reddit.com/r/StableDif…

www.reddit.com/r/StableDif…