一、Z-Image概述
Z-Image 是一款由阿里通义开源的一款功能强大且高效的图像生成模型,拥有60 亿个参数。有三种变体,目前开源的是Z-Image-Turbo,是Z-Image 的精简版,仅需8 次函数评估 (NFE),即可达到甚至超越领不少文生图大模型的性能。它在企业级 H800 GPU 上可实现亚秒级推理延迟,并能轻松适配16G 显存的消费级设备。它在照片级图像生成、双语文本渲染(中英文)以及强大的指令执行能力方面表现卓越。
Z-Image-Turbo能生成逼真的照片级图像,同时保持优异的美学品质,擅长精准渲染复杂的中文和英文文本,提示增强器赋予模型推理能力,使其能够超越表面描述并挖掘潜在的世界知识。
二、模型架构
Z-Image采用可扩展的单流数字图像处理(S3-DiT)架构。在该架构中,文本、视觉语义标记和图像VAE标记在序列级别上连接起来,作为统一的输入流,与双流方法相比,最大限度地提高了参数效率。
三、下载
使用huggingface或modelscope均可进行下载:
pip install -U huggingface_hub
export HF_XET_HIGH_PERFORMANCE=1
hf download Tongyi-MAI/Z-Image-Turbo
四、快速入门
1、安装diffusers库
由于Z-Image是一种扩散语言模型,这有别于普通LLM使用Transformers库,Z-Image需要使用Diffusers库,目前使用前需要进行源码安装,将来如果HuggingFace将Z-Image集成到官方库中即可使用更简单的方法直接安装。
小提示:
- • Transformers库与Diffusers库均是由HuggingFace开发的用于深度学习模型的开源Python库。
- • Transformers主要用于处理序列建模任务(NLP为主,也包括语音、视觉)如BERT、GPT、T5、LLaMA、Whisper、ViT、CLIP。
- • Diffusers专注于扩散模型(Diffusion Models)的训练与推理,如stable Diffusion、DDPM、DDIM、Latent Diffusion、ControlNet、UNet-based models架构。
安装命令:
pip install git+https://github.com/huggingface/diffusers
2、调用代码
import torch
from diffusers import ZImagePipeline
# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
"/Users/liuzhengguo/work/ai-all/hf/models/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("mps")
# [可选] 注意力后端
# 默认情况下,Diffusers 使用 SDPA。如果支持的话,切换到 Flash Attention 以获得更高的效率:
# pipe.transformer.set_attention_backend("flash") # 启用 Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # 启用 Flash-Attention-3
# [可选] 模型编译
# 编译 DiT 模型可以加速推理,但第一次运行时将需要更长的时间进行编译。
# pipe.transformer.compile()
# [可选] CPU 卸载
# 为内存受限的设备启用 CPU 卸载。
# pipe.enable_model_cpu_offload()
prompt = "身着红色汉服的中国年轻女子,衣饰绣有精美繁复的刺绣。妆容精致无瑕,额间绘有红色花卉图案。高耸繁复的发髻上佩戴金色凤凰头饰,点缀红花与珠串。她手持一柄圆形折扇,扇面绘有仕女、树木与飞鸟。一道霓虹闪电造型的灯(⚡️)悬浮于她伸出的左掌上方,散发出明亮的黄色光芒。背景为柔和夜光下的户外场景,远处可见西安大雁塔的层叠剪影,以及模糊而绚丽的彩色灯火。"
# 2. Generate Image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # This actually results in 8 DiT forwards
guidance_scale=0.0, # Guidance should be 0 for the Turbo models
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("test.png")
产生的图片如下:
五、示例
这里使用与公众号文章《Qwen-Image最新开源版本地部署:实现高效【文生图与图形编辑】的快速开发教程及高清示例》中相同的提示词,并将二者生成的图形放在一起进行对比。
左边图形为Z-Image生成的图片,右边为Qwen-Image生成的图片。
1.中文渲染1
提示词:宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。
| Z-Image生成整体色调明亮,阳光感强烈,画面富有层次感,背景中的古街建筑细节丰富,屋檐、灯笼、青石板路等元素都很好地还原了宫崎骏动画中常见的东方古风与自然融合的意境。 | Qwen-Image生成同样具备明亮的色彩和温暖的光线,但整体略显“扁平化”,光影过渡不如 Z-Image 自然,部分建筑结构略显简化。 |
2.中文渲染2
提示词:一幅优雅庄重的对联悬挂于厅堂摆设,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾启数高志远”,横批“智启通义”,字体飘逸,中间挂着一幅中国风的画作,内容是岳阳楼。
| | |
|---|---|
| Z-Image生成展现了其卓越的文本理解能力和图像生成精度,能够准确无误地还原复杂的中文书法内容,并且在构图、空间感以及细节处理上表现出了高度的专业性和艺术美感。它成功捕捉了提示词中的每一个元素,包括精确的对联文字、优雅的岳阳楼画作以及符合古典美学的青花瓷器,营造出庄重典雅的整体氛围,体现了高水平的文化符号识别和艺术表现力。 | Qwen-Image生成能生成与主题相关联的画面,但在关键性文字内容的准确性、特定文化符号的理解(如岳阳楼)方面出现了明显的偏差。整体布局遵循了中式风格,但由于过度添加非必要的元素,导致画面显得杂乱,影响了最终的艺术效果和风格统一性。这表明Qwen-Image在处理需要高精度语义理解和文化背景知识的任务时还有提升的空间。 |
3.中文渲染3
提示词:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面向镜头微笑。她身后的玻璃板上手写体写着 “一、Qwen-Image的技术路线: 探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、Qwen-Image的模型特色:1、复杂文字渲染。支持中英渲染、自动布局; 2、精准图像编辑。支持文字编辑、物体增减、风格变换。三、Qwen-Image的未来愿景:赋能专业内容创作、助力生成式AI发展。”
| Z-Image生成展现了出色的文本渲染与布局能力。画面中,玻璃板上的手写体文字清晰、自然,排版工整且符合中文书写习惯,内容完整准确地还原了提示词中的技术路线、模型特色和未来愿景,字体大小适中、行距合理,整体视觉层次分明。人物形象自然生动,T恤上的“QWEN”标志清晰可见,手持马克笔的动作与微笑表情协调一致,背景简洁专业,充分体现了现代科技感与人文温度的结合,整体表现高度契合提示词意图 | Qwen-Image生成在文字内容的呈现上存在明显不足:虽然基本结构接近,但文字排版混乱,部分段落错位重叠,字迹模糊不清,尤其是“三、Qwen-Image的未来愿景”一栏出现严重断行与缺失,关键信息难以辨认。此外,玻璃板上的文字与实际场景比例失调,缺乏真实感。尽管人物形象较为美观,笑容自然,T恤标识也清晰,但整体画面因文字渲染失败而大打折扣,未能有效传达提示词中的核心信息,暴露出其在复杂文本生成与自动布局方面的短板。 |
4.英文示例
提示词:
Bookstore window display. A sign displays “New Arrivals This Week”. Below, a shelf tag with the text “Best-Selling Novels Here”. To the side, a colorful poster advertises “Author Meet And Greet on Saturday” with a central portrait of the author. There are four books on the bookshelf, namely “The light between worlds” “When stars are scattered” “The slient patient” “The night circus”
| Z-Image生成表现出了极高的文本还原精度与视觉设计能力。画面中的“New Arrivals This Week”标识清晰醒目,字体规范、排版工整;下方的“Best-Selling Novels Here”标签位置准确,大小适中。四本图书《The Light Between Worlds》《When Stars Are Scattered》《The Silent Patient》和《The Night Circus》均完整呈现,书名正确无误,封面设计风格各异且符合原作特征,色彩鲜明、布局协调。右侧海报上作者肖像清晰,文字内容“Author Meet and Greet on Saturday”书写自然,整体构图层次分明,光影真实,营造出温馨专业的书店氛围,完全契合提示词描述。 | Qwen-Image生成基本还原了场景结构,但在细节处理上存在明显偏差。首先,“New Arrivals This Week”标识字体较小、背景过白,缺乏视觉冲击力;其次,书籍排列虽大致正确,但部分书名拼写不规范(如“The silent patient”未大写首字母),且封面设计较为简略,缺乏真实感。此外,“Best-Selling Novels Here”标签被错误地置于书架下方而非旁边,位置错位;作者海报上的文字“Author Meet And Greet on Saturday”出现断行和格式混乱,影响阅读体验。整体画面光线偏暗,空间纵深感不足,细节粗糙,未能精准传达提示词中的信息与美学要求。 |
5.PPT制作
提示词:
一张企业级高质量PPT页面图像,整体采用科技感十足的星空蓝为主色调,背景融合流动的发光科技线条与微光粒子特效,营造出专业、现代且富有信任感的品牌氛围;页面顶部左侧清晰展示橘红色Alibaba标志,色彩鲜明、辨识度高。主标题位于画面中央偏上位置,使用大号加粗白色或浅蓝色字体写着“通义千问视觉基础模型”,字体现代简洁,突出技术感;主标题下方紧接一行楷体中文文字:“原生中文·复杂场景·自动布局”,字体柔和优雅,形成科技与人文的融合。下方居中排布展示了四张与图片,分别是:一幅写实与水墨风格结合的梅花特写,枝干苍劲、花瓣清雅,背景融入淡墨晕染与飘雪效果,体现坚韧不拔的精神气质;上方写着黑色的楷体"梅傲"。一株生长于山涧石缝中的兰花,叶片修长、花朵素净,搭配晨雾缭绕的自然环境,展现清逸脱俗的文人风骨;上方写着黑色的楷体"兰幽"。一组迎风而立的翠竹,竹叶随风摇曳,光影交错,背景为青灰色山岩与流水,呈现刚柔并济、虚怀若谷的文化意象;上方写着黑色的楷体"竹清"。一片盛开于秋日庭院的菊花丛,花色丰富、层次分明,配以落叶与古亭剪影,传递恬然自适的生活哲学;上方写着黑色的楷体"菊淡"。所有图片采用统一尺寸与边框样式,呈横向排列。页面底部中央用楷体小字写明“2025年8月,敬请期待”,排版工整、结构清晰,整体风格统一且细节丰富,极具视觉冲击力与品牌调性。
| Z-Image生成背景采用深邃星空搭配流动发光线条,Alibaba标志鲜明,标题排版清晰有力,梅兰竹菊图典雅且标注准确,整体视觉效果统一、科技感强,符合品牌调性。 | Qwen-Image生成基本元素齐全,但背景和发光线条效果单一,Alibaba标志不够醒目。主副标题略显模糊,梅兰竹菊图质量欠佳,标注位置不一,底部文字被遮挡,整体细节处理和视觉一致性有待提升。 |
通过以上对比,我们可以看出:
- Z-Image 在多轮对比中展现出卓越的文本理解、细节还原与视觉设计能力,能精准呈现复杂中文内容、文化符号及排版结构,图像风格统一、层次丰富,兼具艺术性与专业性,适用于高要求的宣传与出版场景。
- Qwen-Image 具备基本的画面生成能力,但在关键文字准确性、文化意象识别和细节一致性方面存在明显短板,常出现错字、布局混乱或元素失真等问题,更适合快速草图或对精度要求不高的初步构思用途。
对图片的评价主观因素占比较大,千人千面,上述评价仅代表一种观点,不喜勿喷!
最后,如果你不想自己安装运行环境,也不想用代码来实现,可以到魔塔社区的AIGC中进行使用,URL为:
推荐阅读:
5、别再乱下模型了!Ollama 用户必看的 GGUF 量化选择指南
扫码关注,一起进步!