大家好,我是小悟。
阿里通义实验室正式开源发布Z-Image基座模型,这个仅有6B参数的大模型却保留全量权重分布,原生支持CFG引导机制。
在AI图像生成领域,这几乎是个不按常理出牌的存在,当同行们还在追求“大而全”时,它偏偏选择“小而美”,凭借仅6B的参数量实现媲美20B以上旗舰模型的生成质量。
痛点:AI 生图让人挠头的事
用过 AI 生图的人,多少都被下面几件事折磨过:
- 画质与成本难两全:想要好效果,要么掏钱上闭源服务,要么自己折腾本地大模型,对显卡和配置要求极高。
- “AI 脸”与“AI 味” :生成的人物像从一个模子里刻出来的,表情、构图都似曾相识,看多了就觉得乏味。
- 中文和文字是硬伤:想生成一张带中文的海报,结果汉字不是缺胳膊少腿,就是直接变成乱码,逼得人只能后期手动 P 字。
- 门槛高,折腾不起:对普通用户和中小团队而言,动辄几十 GB 的模型、复杂的依赖环境,光是安装就能劝退一大半人。
Z-Image 这次,就是冲着这些痛点来的。
Z-Image 是什么?
简单说,Z-Image 是阿里通义实验室开源的一套“文本生成图像”基础模型,目前主推的是 6B 参数的版本。
它有几个关键点:
架构新:采用 S3-DiT(单流扩散 Transformer) 架构,将文本和图像信息统一处理,提升了生成效率和质量。
版本全:提供三个主要版本,满足不同需求:
-
-
Z-Image-Base:完整的基座模型,适合追求极致质量和进行深度定制的开发者。
-
Z-Image-Turbo:为速度而生,通过蒸馏技术将推理步数压缩至 8 步,出图飞快。
-
Z-Image-Edit:专注于图像编辑,如局部修改、风格变换等。
-
- 门槛低:官方强调可在 16GB 显存的消费级显卡(如 RTX 3060)上流畅运行,对普通玩家非常友好。
- 开源:采用 Apache 2.0 协议,意味着你可以免费使用、修改。
一句话概括:Z-Image 是一套为“高质量、高效率、低门槛”而生的开源生图方案。
核心功能:它强在哪?
1. 画质与风格:小身材,大能量
别看 Z-Image 只有 6B 参数,但其画质可与许多更大规模的模型媲美。它原生支持从超写实摄影到动漫、插画等多种风格,光影和细节表现力出色,并非简单的“滤镜感”。
2. 告别“AI 脸”,拥抱多样性
Z-Image 优化了采样空间,确保每次出图在面孔、构图和光影上都有显著差异。在多人场景中,能有效避免生成“大众脸”,让每个角色都更具辨识度。
3. 中文友好,能“写字”的模型
作为国产模型,Z-Image 对中文提示词的理解非常到位。更厉害的是,它在渲染中英文文本上表现突出,能直接在图上生成结构完整、可辨认的汉字,对制作海报、封面等场景极为实用。
4. 强大的负向提示词控制
你可以通过 Negative Prompt 精准地“告诉”模型你不想要什么,例如多余的物体、奇怪的构图或光影问题。这相当于给模型一个“反向指令”,帮助你更精细地打磨画面。
5. 为开发者准备的“乐高底座”
Z-Image 保留了完整的权重分布,原生支持 CFG 引导,非常适合进行 LoRA 训练、接入 ControlNet 等高级玩法。这意味着开发者可以基于它构建各种垂直领域的专属模型。
安装部署
安装最新版 diffusers:
pip install git+https://github.com/huggingface/diffusers
下载模型:
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image
推荐参数
分辨率:512×512 至 2048×2048(总像素面积,任意宽高比)
引导尺度(Guidance scale):3.0 – 5.0
推理步数(Inference steps):28 – 50
import torch
from modelscope import ZImagePipeline
# Load the pipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# Generate image
prompt = "两名年轻亚裔女性紧密站在一起,背景为朴素的灰色纹理墙面,可能是室内地毯地面。左侧女性留着长卷发,身穿藏青色毛衣,左袖有奶油色褶皱装饰,内搭白色立领衬衫,下身白色裤子;佩戴小巧金色耳钉,双臂交叉于背后。右侧女性留直肩长发,身穿奶油色卫衣,胸前印有“Tun the tables”字样,下方为“New ideas”,搭配白色裤子;佩戴银色小环耳环,双臂交叉于胸前。两人均面带微笑直视镜头。照片,自然光照明,柔和阴影,以藏青、奶油白为主的中性色调,休闲时尚摄影,中等景深,面部和上半身对焦清晰,姿态放松,表情友好,室内环境,地毯地面,纯色背景。"
negative_prompt = "" # Optional, but would be powerful when you want to remove some unwanted content
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=1280,
width=720,
cfg_normalizatinotallow=False,
num_inference_steps=50,
guidance_scale=4,
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")
开源社区
GitHub:https://github.com/Tongyi-MAI/Z-Image
魔搭:https://modelscope.cn/models/Tongyi-MAI/Z-Image
Hugging Face:https://huggingface.co/Tongyi-MAI/Z-Image
最后
Z-Image 的出现,为 AI 生图领域提供了一个新的、强大的开源选项。它降低了高质量 AI 绘图的门槛,让更多人能将创意变为现实。
技术的价值,最终体现在它能否激发人们的创造力。从这个角度看,Z-Image 迈出了坚实的一步。
谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海