阿里悄悄扔出一张王炸，这台人人能用的AI画图神器开源，免费使用阿里通义实验室正式开源发布Z-Image基座模型，这个仅有

大家好，我是小悟。

阿里通义实验室正式开源发布Z-Image基座模型，这个仅有6B参数的大模型却保留全量权重分布，原生支持CFG引导机制。

Showcase of Z-Image on Photo-realistic image Generation

在AI图像生成领域，这几乎是个不按常理出牌的存在，当同行们还在追求“大而全”时，它偏偏选择“小而美”，凭借仅6B的参数量实现媲美20B以上旗舰模型的生成质量。

痛点：AI 生图让人挠头的事

用过 AI 生图的人，多少都被下面几件事折磨过：

画质与成本难两全：想要好效果，要么掏钱上闭源服务，要么自己折腾本地大模型，对显卡和配置要求极高。

“AI 脸”与“AI 味” ：生成的人物像从一个模子里刻出来的，表情、构图都似曾相识，看多了就觉得乏味。

中文和文字是硬伤：想生成一张带中文的海报，结果汉字不是缺胳膊少腿，就是直接变成乱码，逼得人只能后期手动 P 字。

门槛高，折腾不起：对普通用户和中小团队而言，动辄几十 GB 的模型、复杂的依赖环境，光是安装就能劝退一大半人。

Z-Image 这次，就是冲着这些痛点来的。

Z-Image 是什么？

简单说，Z-Image 是阿里通义实验室开源的一套“文本生成图像”基础模型，目前主推的是 6B 参数的版本。

它有几个关键点：

架构新：采用 S3-DiT（单流扩散 Transformer） 架构，将文本和图像信息统一处理，提升了生成效率和质量。

Architecture of Z-Image and Z-Image-Edit

版本全：提供三个主要版本，满足不同需求：

- Z-Image-Base：完整的基座模型，适合追求极致质量和进行深度定制的开发者。
- Z-Image-Turbo：为速度而生，通过蒸馏技术将推理步数压缩至 8 步，出图飞快。
- Z-Image-Edit：专注于图像编辑，如局部修改、风格变换等。

Training Pipeline of Z-Image

门槛低：官方强调可在 16GB 显存的消费级显卡（如 RTX 3060）上流畅运行，对普通玩家非常友好。

开源：采用 Apache 2.0 协议，意味着你可以免费使用、修改。

一句话概括：Z-Image 是一套为“高质量、高效率、低门槛”而生的开源生图方案。

Showcase of Z-Image-Edit on Image Editing

核心功能：它强在哪？

1. 画质与风格：小身材，大能量

别看 Z-Image 只有 6B 参数，但其画质可与许多更大规模的模型媲美。它原生支持从超写实摄影到动漫、插画等多种风格，光影和细节表现力出色，并非简单的“滤镜感”。

2. 告别“AI 脸”，拥抱多样性

Z-Image 优化了采样空间，确保每次出图在面孔、构图和光影上都有显著差异。在多人场景中，能有效避免生成“大众脸”，让每个角色都更具辨识度。

3. 中文友好，能“写字”的模型

作为国产模型，Z-Image 对中文提示词的理解非常到位。更厉害的是，它在渲染中英文文本上表现突出，能直接在图上生成结构完整、可辨认的汉字，对制作海报、封面等场景极为实用。

4. 强大的负向提示词控制

你可以通过 Negative Prompt 精准地“告诉”模型你不想要什么，例如多余的物体、奇怪的构图或光影问题。这相当于给模型一个“反向指令”，帮助你更精细地打磨画面。

5. 为开发者准备的“乐高底座”

Z-Image 保留了完整的权重分布，原生支持 CFG 引导，非常适合进行 LoRA 训练、接入 ControlNet 等高级玩法。这意味着开发者可以基于它构建各种垂直领域的专属模型。

安装部署

安装最新版 diffusers：
pip install git+https://github.com/huggingface/diffusers


下载模型：
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image


推荐参数
分辨率：512×512 至 2048×2048（总像素面积，任意宽高比）
引导尺度（Guidance scale）：3.0 – 5.0
推理步数（Inference steps）：28 – 50
import torch
from modelscope import ZImagePipeline


# Load the pipeline
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")


# Generate image
prompt = "两名年轻亚裔女性紧密站在一起，背景为朴素的灰色纹理墙面，可能是室内地毯地面。左侧女性留着长卷发，身穿藏青色毛衣，左袖有奶油色褶皱装饰，内搭白色立领衬衫，下身白色裤子；佩戴小巧金色耳钉，双臂交叉于背后。右侧女性留直肩长发，身穿奶油色卫衣，胸前印有“Tun the tables”字样，下方为“New ideas”，搭配白色裤子；佩戴银色小环耳环，双臂交叉于胸前。两人均面带微笑直视镜头。照片，自然光照明，柔和阴影，以藏青、奶油白为主的中性色调，休闲时尚摄影，中等景深，面部和上半身对焦清晰，姿态放松，表情友好，室内环境，地毯地面，纯色背景。"
negative_prompt = "" # Optional, but would be powerful when you want to remove some unwanted content


image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=1280,
    width=720,
    cfg_normalizatinotallow=False,
    num_inference_steps=50,
    guidance_scale=4,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]


image.save("example.png")

开源社区

GitHub：https://github.com/Tongyi-MAI/Z-Image
魔搭：https://modelscope.cn/models/Tongyi-MAI/Z-Image
Hugging Face：https://huggingface.co/Tongyi-MAI/Z-Image

最后

Z-Image 的出现，为 AI 生图领域提供了一个新的、强大的开源选项。它降低了高质量 AI 绘图的门槛，让更多人能将创意变为现实。

技术的价值，最终体现在它能否激发人们的创造力。从这个角度看，Z-Image 迈出了坚实的一步。

谢谢你看我的文章，既然看到这里了，如果觉得不错，随手点个赞、转发、在看三连吧，感谢感谢。那我们，下次再见。

您的一键三连，是我更新的最大动力，谢谢

山水有相逢，来日皆可期，谢谢阅读，我们再会

我手中的金箍棒，上能通天，下能探海