阿里悄悄扔出一张王炸,这台人人能用的AI画图神器开源,免费使用

77 阅读5分钟

大家好,我是小悟。

阿里通义实验室正式开源发布Z-Image基座模型,这个仅有6B参数的大模型却保留全量权重分布,原生支持CFG引导机制。

Showcase of Z-Image on Photo-realistic image Generation

在AI图像生成领域,这几乎是个不按常理出牌的存在,当同行们还在追求“大而全”时,它偏偏选择“小而美”,凭借仅6B的参数量实现媲美20B以上旗舰模型的生成质量。

图片

痛点:AI 生图让人挠头的事

用过 AI 生图的人,多少都被下面几件事折磨过:

  • 画质与成本难两全:想要好效果,要么掏钱上闭源服务,要么自己折腾本地大模型,对显卡和配置要求极高。
  • “AI 脸”与“AI 味” :生成的人物像从一个模子里刻出来的,表情、构图都似曾相识,看多了就觉得乏味。
  • 中文和文字是硬伤:想生成一张带中文的海报,结果汉字不是缺胳膊少腿,就是直接变成乱码,逼得人只能后期手动 P 字。
  • 门槛高,折腾不起:对普通用户和中小团队而言,动辄几十 GB 的模型、复杂的依赖环境,光是安装就能劝退一大半人。

Z-Image 这次,就是冲着这些痛点来的。

Z-Image 是什么?

简单说,Z-Image 是阿里通义实验室开源的一套“文本生成图像”基础模型,目前主推的是 6B 参数的版本。

reasoning.jpg

它有几个关键点:

架构新:采用 S3-DiT(单流扩散 Transformer)  架构,将文本和图像信息统一处理,提升了生成效率和质量。

Architecture of Z-Image and Z-Image-Edit

版本全:提供三个主要版本,满足不同需求:

    • Z-Image-Base:完整的基座模型,适合追求极致质量和进行深度定制的开发者。

    • Z-Image-Turbo:为速度而生,通过蒸馏技术将推理步数压缩至 8 步,出图飞快。

    • Z-Image-Edit:专注于图像编辑,如局部修改、风格变换等。

Training Pipeline of Z-Image

  • 门槛低:官方强调可在 16GB 显存的消费级显卡(如 RTX 3060)上流畅运行,对普通玩家非常友好。
  • 开源:采用 Apache 2.0 协议,意味着你可以免费使用、修改。

一句话概括:Z-Image 是一套为“高质量、高效率、低门槛”而生的开源生图方案。

Showcase of Z-Image-Edit on Image Editing

核心功能:它强在哪?

1. 画质与风格:小身材,大能量

别看 Z-Image 只有 6B 参数,但其画质可与许多更大规模的模型媲美。它原生支持从超写实摄影到动漫、插画等多种风格,光影和细节表现力出色,并非简单的“滤镜感”。

图片

2. 告别“AI 脸”,拥抱多样性

Z-Image 优化了采样空间,确保每次出图在面孔、构图和光影上都有显著差异。在多人场景中,能有效避免生成“大众脸”,让每个角色都更具辨识度。

图片

3. 中文友好,能“写字”的模型

作为国产模型,Z-Image 对中文提示词的理解非常到位。更厉害的是,它在渲染中英文文本上表现突出,能直接在图上生成结构完整、可辨认的汉字,对制作海报、封面等场景极为实用。

4. 强大的负向提示词控制

你可以通过 Negative Prompt 精准地“告诉”模型你不想要什么,例如多余的物体、奇怪的构图或光影问题。这相当于给模型一个“反向指令”,帮助你更精细地打磨画面。

图片

5. 为开发者准备的“乐高底座”

Z-Image 保留了完整的权重分布,原生支持 CFG 引导,非常适合进行 LoRA 训练、接入 ControlNet 等高级玩法。这意味着开发者可以基于它构建各种垂直领域的专属模型。

图片

安装部署

安装最新版 diffusers:
pip install git+https://github.com/huggingface/diffusers


下载模型:
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image


推荐参数
分辨率:512×512 至 2048×2048(总像素面积,任意宽高比)
引导尺度(Guidance scale):3.0 – 5.0
推理步数(Inference steps):28 – 50
import torch
from modelscope import ZImagePipeline


# Load the pipeline
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")


# Generate image
prompt = "两名年轻亚裔女性紧密站在一起,背景为朴素的灰色纹理墙面,可能是室内地毯地面。左侧女性留着长卷发,身穿藏青色毛衣,左袖有奶油色褶皱装饰,内搭白色立领衬衫,下身白色裤子;佩戴小巧金色耳钉,双臂交叉于背后。右侧女性留直肩长发,身穿奶油色卫衣,胸前印有“Tun the tables”字样,下方为“New ideas”,搭配白色裤子;佩戴银色小环耳环,双臂交叉于胸前。两人均面带微笑直视镜头。照片,自然光照明,柔和阴影,以藏青、奶油白为主的中性色调,休闲时尚摄影,中等景深,面部和上半身对焦清晰,姿态放松,表情友好,室内环境,地毯地面,纯色背景。"
negative_prompt = "" # Optional, but would be powerful when you want to remove some unwanted content


image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=1280,
    width=720,
    cfg_normalizatinotallow=False,
    num_inference_steps=50,
    guidance_scale=4,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]


image.save("example.png")

开源社区

GitHubhttps://github.com/Tongyi-MAI/Z-Image
魔搭:https://modelscope.cn/models/Tongyi-MAI/Z-Image
Hugging Facehttps://huggingface.co/Tongyi-MAI/Z-Image

最后

Z-Image 的出现,为 AI 生图领域提供了一个新的、强大的开源选项。它降低了高质量 AI 绘图的门槛,让更多人能将创意变为现实。

技术的价值,最终体现在它能否激发人们的创造力。从这个角度看,Z-Image 迈出了坚实的一步。

图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海