关于AI绘画，你想知道的都在这里[万字长文+超多插图] 一篇文章，基于我自己的学习经验，带你了解从2022年开始到现在的

关于AI绘画，你想知道的都在这里

GitHub GitHub

Author: Ming | 2025.08

🌟 [万字长文+超多插图] 🌟

一篇文章，让你了解从2022年开始到现在的AI绘画究竟是怎么一回事

相信很多人在学习AI绘画的过程中，都经历过类似的心路历程：

一开始满腔热血，决心要系统掌握AI绘画的所有知识；

随后却陷入困惑，因为发现各平台的教程几乎全是碎片化的内容，不成体系，而且几乎每一篇都默认你已经具备相关基础😑

好不容易找到一个看起来不错的系列教程，跟着学的时候却冒出大量陌生术语，操作步骤也让人不明所以——这种“不知道为什么要这么做”的状态，最是消耗热情。

更关键的是，每隔几天就有新模型、新插件和新功能冒出来…知识更新速度快到根本追不上，根本学不完。于是慢慢变得浮躁，学习动力不断下降，最终可能只好把AI绘画“束之高阁”。

这一切我都深有体会——尽管我还算有一些人工智能相关的基础。我从2022年StableDiffusion刚兴起时就开始接触AI绘画，几乎是出一个新功能就跟进一个：今天新出了一个叫Lora的功能，就去学Lora，明天出了ControlNet，就去学…那时觉得既新鲜又有趣。后来因为考研，不得不暂停。等到今年三月考研结束，再回来看时，整个人都愣住了：ComfyUI、Flux、NoobAI-XL、Pony、qwen-image、AniWan…已经完全看不懂了😓。AI绘画的发展速度，远远超乎想象。之后我的心路历程，就正如上文所描述的那样。

所以这篇文章的目的，就是基于我自己的学习经验，为大家系统梳理“AI绘画”到底是怎么一回事，让一个完全零基础想学AI绘画但不知从何下手的人提供一个方向和大纲，授人以渔而不是授人以鱼——不涉及复杂的人工智能专业知识，也不讲模型架构和数学原理，只聚焦于一个工具使用者真正需要知道的内容。帮大家拨开专业术语和零散信息所构成的“迷雾”，从全局视角理解AI绘画的知识结构——让你真正一脚跨进这道门槛。

毕竟，大多数人学习AI绘画，只是想用好这个工具辅助自己的创作，而不是要去开发训练新AI。

其实学得越久我越意识到：用好AI绘画，根本不需要多深的人工智能背景。就像你用一款App，并不需要懂它的代码和算法。最好的学习方法就是“在用中学，在学中用”——关键是多尝试、多实践。

在开始正文之前，让我们先来看看目前AI绘画及其衍生技术究竟达到了什么样的程度

fig1_3D渲染.jpg

fig2_概念稿快速成图.jpg

fig3_多图参考.jpg

fig4_图像处理.jpg

fig5_产品图360.jpg

fig6_动漫图360.jpg

fig7_海报.jpg

fig8_修改文字.jpg

fig9_原画拆解.jpg

fig13_多风格人物一致性.jpg

AI视频演示地址：www.bilibili.com/video/BV1tv…

上述展示的所有效果都可以在个人电脑上本地实现，不需要联网，并且只需要一款软件。

要了解一个国家，就必须先了解其历史；要了解一个人，就必须回顾其过往经历；而一项技术的现代形态，则写在其发展的脉路中。唯有循着来时路，方能抵达理解的彼岸。

这一切，都要从2022年下半年讲起。那时候，大多数人还没听说过“AI绘画”（ChatGPT-3.5也尚未问世），更难以想象人工智能竟能涉足艺术领域。在当时的主流认知中，AI的形象更接近一个“理科天才”——逻辑严密、运算迅猛，却与感性、创意并无关联。

真正的转折发生在2022年8月。 Stability.ai 公司发布了 Stable Diffusion 1.5 模型（如下简称为SD1.5）——并且将其彻底开源。这一举动，如同一把钥匙，打开了AI绘画的全民时代。它不仅引爆了一场技术热潮，也正式确立了现代AI图像生成工具的起点。

其实AI生图的技术在很早以前就出现了，只不过那时候的效果不尽人意。而早期的AI生图技术要么被大公司长久把持（闭源），要么生成图画的效果不佳，达不到破圈能力。

给不了解AI的朋友们简单解释一下什么是AI，AI的本质是数学，核心体现就是一行行的代码和算法，但更重要的是其训练得到的“知识”；这么说可能难以理解，可以把AI想象成一个大脑，一个通过代码和算法构建的虚拟大脑，但是构建好这个大脑后，你让它去画画，它啥也画不出来，为什么？你能指望一个刚出生的婴儿立马画画写字？刚构建好的这个虚拟大脑里面啥知识也没有，就如同刚出生的婴儿，这时候就需要让它学习，那它是怎么学的呢？不妨想一想我们人类画师是如何学习绘画的？那是通过长久的绘画练习，大量的临摹，日复一日，年复一年才训练出来到。而AI也类似，它也需要学习，技术人员把数以千亿的人类历史上的画作输入给这个虚拟大脑，让其自我学习，从中寻找规律，从而形成AI自己的绘画模式，这一过程依赖巨大的算力支持，远超普通个人设备的负荷。而训练数据的类型，也直接塑造了AI的“画风”。如果只给AI看油画，它自然不会生成二次元动漫——因为它从未“见过”那样的图像。

当然，所有这些的前提，是算法本身足够强大。如果模型架构先天不足，比如构建出来了一个猩猩大脑，那么你再给它学多少图像，它都学不会如何画画

因此，一个完整的“AI模型”，既包括算法结构，也包含它所学到的知识（一个虚拟大脑+它学到的知识），这一个整体叫做一个"AI大模型"。

目前，即便是最先进的AI，仍属于“专用型智能”，是为特定任务设计的工具，远未达到人类大脑的通用与抽象水平。

那SD1.5模型就很好理解了——它本质上是一个由Stability.ai公司设计出的“虚拟大脑”，加上从海量图像中学到的绘画知识。该公司收集了规模庞大的图片数据集用于训练这个模型，使其初步掌握了图像生成的能力。

那时的AI绘画生态还相当简单，远不如如今这般复杂。用户只需要加载一个模型、写几句正向和反向提示词（prompt），就能生成图像。不过当时开源的SD1.5模型的生成效果仍比较粗糙，画面常常扭曲或偏离预期。（当时最热门的开源工具是Stable Diffusion WebUI，它让普通人也能在本地电脑上运行AI绘画模型。）

但是，因为SD1.5模型是开源的，这就意味着任何人都能对其进行一些修改，开源社区的力量被彻底释放，于是很多个创作者就拿这个SD1.5模型作为基础模型，简称基模/底模，在此基础上给这个SD1.5学新的图片。比如给SD1.5模型继续喂它个几十万张二次元动漫风格的图片，让这个SD1.5学会画动漫风格的图片，这时候SD1.5就进化了，因为它学会了画二次元图片，创作者就可以为其命名并发布，比如叫做"很会画动漫"模型，其他人就可以下载这个模型，就能在本地运行这个定制化模型。（这类模型的文件大小通常在1.9GB~5GB之间）

如下图所展示的一些AI绘画大模型（checkpoint），它们就是用SD1.5为基础模型训练出来各种风格的优秀大模型

尽管基于SD1.5训练的模型效果明显优于原版，但它们仍存在一个致命问题：出图质量极不稳定，且高度依赖提示词。用户往往需要编写非常具体、甚至专业级的描述文本才能生成一张像样的图片——如下图所示，提示词长度和复杂程度都相当“恐怖”😱

这一切都表明，早期的AI绘画是不可控的。你很难让它完全按你的意愿生成图像——也正是这种“不靠谱”，让它一度被专业绘画界视为玩具，难以真正进入商业生产流程。

直到ControlNet的出现。ControlNet这项技术真正的让AI绘画有了超高的可控性，ControlNet是以SD1.5架构基础训练出来的模型，它以插件（额外功能）的形式作用于AI绘画软件，在ControlNet模型（controlnet）和SD1.5模型（checkpoint）的共同配合来完成生图

2023年2月，斯坦福大学计算机科学在读博士张吕敏与Maneesh Agrawala共同发布了这项研究，正式提出了ControlNet结构。

什么是ControlNet？ControlNet 是一种神经网络结构，它通过添加额外的条件（如边缘检测图、深度图、姿态关键点、涂鸦等）来控制AI绘画大模型（SD1.5）的图像生成过程。简单来说，它就像给 AI 绘画加了一个“方向盘”，让你能更好地控制生成图像的内容、构图、姿态等，而不仅仅是依赖文本描述去“抽卡”，下图就是一个通过线稿控制生成结果的典型示例：

ControlNet 并不只有一个模型，而是一个系列，其中包含多种专门化模型，分别用于处理不同类型的控制任务。下图展示了几种常用ControlNet模型的基本控制效果：

看到这里你可能会问：这些输入用的控制图又是从哪里来的？其实，它们不仅可以手动绘制，也可以借助其他AI工具自动生成。现在已经出现了不少专门用于生成控制图（如姿态识别、边缘检测、深度估算等）的AI工具，大大降低了使用门槛。

相信大家除了ControlNet，肯定还听说过一个名为T2I Adapter的技术，其实这两个本质是同一个东西。ControlNet是“开山鼻祖”，腾讯ARC实验室也做了一个和ControlNet功能相同的东西，取名为T2I Adapter，这两个用哪个都行，都能做到如上图所示的控制。

上文提到，想要基于SD1.5这样的基础模型训练出一个新模型，通常需要数以万计的图片，每个模型文件（checkpoint）至少占用2G以上的空间，更不用说训练过程中对算力的巨大需求——普通计算机根本难以胜任。这给许多创作者带来了不小的门槛。比方说，如果你希望得到一个专门绘制中国水墨画风格的模型，直接去寻找现成的大模型不仅麻烦，甚至很可能根本找不到符合你需求的版本。

要是有这样一种技术就好了：只需几张图片，AI就能迅速学会某种风格，模型体积小、训练算力要求也不高——这就是我们所说的LoRA。

一个Lora模型非常小，但能让AI快速学会生成特定的人物、画风或物体，而不用重新训练整个巨大的模型

我们可以把像SD1.5这样的AI大模型（checkpoint）想象成一位无所不能但风格尚未定型的“绘画大师”：

你告诉他：“画一个女孩。” 他能画，但画出来的是随机的陌生面孔。

但现在，你想让他固定画成 《塞尔达传说》里的塞尔达公主 的样子。

有两种方法：

方法A（费劲的方法）： 你把成千上万张塞尔达的图片给这位大师，让他闭关修炼几个月，从头到尾重新学习如何成为一位“塞尔达专画大师”。这非常耗时耗力，相当于重新训练一个模型（Checkpoint）。
方法B（巧妙的方法）： 你不需要他重新学画画。你只给他一本薄薄的 “塞尔达绘画指南小册子”（这就是LoRA） 。这本小册子很小，只记录了画塞尔达的关键要点：比如她独特的金发、尖耳朵、绿色服饰等特征。大师看完后，结合他原本的全部绘画功底，就能完美地画出塞尔达了。LoRA就是那本“小册子”。

LoRA的用途极其广泛，几乎所有你能想到的特定对象或风格，都可以用它来定制

固定人物形象（最常用的功能）： 你可以训练一个关于你自己、某个动漫角色（如雷电将军）、某个明星的LoRA。之后无论你让AI生成什么场景（在咖啡厅、在太空、变成猫娘），这个角色的脸部特征都能保持高度一致。

复刻特定画风： 你可以训练一个LoRA来学习某位艺术家的风格（比如莫奈的印象派、吉卜力的动画风格、某个热门游戏的美术风格），之后你的所有生成图都可以带有这种风格的韵味。

生成特定物体或概念： 比如一个特定风格的建筑、一种特殊的服装款式（如汉服）、一种抽象的装饰图案等。

控制画面细节： 还有一些特殊的LoRA，可以用来提升画面质量、增加细节、控制色彩饱和度等。

还有很多其它意想不到的神奇功能

LoRA之所以成为AI绘画领域的重要工具，主要源于三大优势：一是因为它训练起来非常容易，只需少量图片即可完成训练；二是因为训练一个Lora模型对计算机性能要求不是很高，普通个人电脑即可完成训练。三是因为Lora模型文件占用空间很小，远小于Checkpoint，通常在几十MB到几百MB不等。

除了同期的SD1.5系列，其实还有很多优秀的基础模型，比如Midjourney公司的绘画模型，OpenAI公司的DALL-E 3模型等，即使那时候Midjourney之类的模型出图效果确实要好于SD1.5系列模型，与它们相比，SD1.5虽然在生成效果上未必占上风，却凭借其独特的开放性赢得了大量开发者和创作者的青睐。Midjourney等模型尽管表现优秀，但属于闭源商业产品，用户只能通过官方渠道付费使用，缺乏社区参与和二次开发的空间。相比之下，SD1.5不仅完全开源，还带动了全球范围内的技术共享与创新。

当时，国内也逐渐涌现出许多基于AI绘画的小程序和在线平台，其中绝大多数都是以SD1.5为基础进行微调，还没有完全自主研发的底层AI绘图模型。

SD1.5之所以与众不同，关键在于两方面：一是其较低的硬件门槛。即便是一张普通的英伟达消费级显卡，也能较好地支持SD1.5的训练和推理。模型参数量相对较小，使得普通人也有机会在个人电脑上运行和实验。另一方面，也是更核心的一点——开源。开放的模式吸引了大量开发者共同参与生态建设，不断推出新的插件、工具和预训练模型，形成了活跃的技术社区。

除了之前提到的LoRA和ControlNet等关键技术，SD1.5生态中还包含众多其它重要组件与技术概念。理解这些内容，将有助于你更全面地掌握SD1.5的工作原理（请保持耐心，一旦掌握SD1.5的生态，后续诸如SDXL、Flux、Wan2.x、Qwen-Image等模型也都将迎刃而解，实现“一通百通”）。

首先，什么是VAE？如果你玩过AI绘画，大概率见过这个词——经常用它，却未必清楚它到底做了什么，也不知道为什么会有那么多不同的VAE模型。

要理解VAE，我们得先从一个实际问题说起。

一张图片，放大再放大，本质上是由无数像素点构成的。就拿一张1024×1024的普通彩色图像来说，它拥有RGB三个颜色通道，实际上的数据量是 1024 × 1024 × 3 = 3,145,728 个像素点。在计算机中，每个像素往往用浮点数保存，这就导致一张图片所占的内存非常大，直接处理它，计算慢、显存占用极高，几乎难以实现实时生成。

这不仅是AI绘画的痛点，更是整个视觉AI领域长期以来的基础难题。而VAE（Variational Autoencoder，变分自编码器）的出现，正是为了解决这个问题。

你可以把VAE理解为一种专为图像设计的“智能压缩-解压算法”。它本身也是一个神经网络，作用是在尽量不丢失视觉信息的前提下，把高分辨率图片压缩到一个极小尺寸的表示形式，我们一般称这个压缩后的东西为潜空间（Latent），同时vae也可以将压缩后的东西“解压缩”还原为原始图片，这就是vae的全部功能。

这才是AI绘画真正的工作方式：模型（如 SD1.5）并不是直接“画”出一张几百万像素的完整图片，而是先在潜空间中生成一个轻量版的图像表示（通常比原图小64倍），然后再交由VAE“解压缩”还原成最终我们看到的清晰大图。

正因为有了VAE，AI绘画才变得高效可行。而不同VAE模型的存在，也意味着不同的“压缩-解压”风格——有的色彩还原更鲜艳，有的细节保留更扎实，这就为我们优化图像输出效果提供了另一种微调手段。

VAE部分就介绍到这里，接下来我们聊聊Embedding和CLIP——这两个也是AI绘画的常客的

当我们使用AI生成图像时，一个必不可少的环节就是编写“提示词”。可是AI是怎么读懂我们输入的提示词的呢？AI可听不懂英语和中文。这时候，CLIP就派上用场了。你可以把它想象成一位“AI翻译官”，负责将人类语言（如中文或英文）转换成AI所能理解的数值表示——也就是高维向量（就是一大堆数字）。

我们知道，很多中文词汇是无法翻译为英语的，比如“孤舟蓑笠翁，独钓寒江雪”就很难原味的翻译为英文，英文无法表达这种文化语境。同样的，对于AI来说，人类自然语言所能传达的信息其实非常有限，而AI所能理解的语义空间却广阔得多。换句话说，自然语言在AI眼中是一种“信息压缩格式”，很多AI内部的视觉概念根本无法用人类词汇精确描述。因此，仅靠文字提示词翻译成的AI语言往往只能为AI提供一个大致的创作方向，难以实现精细控制。

CLIP负责把文字转换为AI语言，而另一类技术（不在此处过多介绍）则可将一张图片翻译为AI可读的数值形式，而一张图像所包含的信息量，往往远超一段文字描述。如果我们把某一类“不好看”的图像（比如结构扭曲、色彩失调）批量编码成AI可读的格式，并保存为一个模型文件，例如命名为bad_prompt.pt，那么在进行AI绘画时，就可以将它作为“负面提示词”输入给AI，从而避免生成类似风格的图像。诸如bad_prompt.pt这类文件，就是所谓的Embedding模型。

需要注意的是，目前Embedding模型的使用频率已经大幅下降，哪怕是负面提示词也较少采用这类模型。原因在于现阶段的AI绘画模型本身已经足够强大，学会了更通用的表示与排除机制——我们将在后文讨论这一点。

相信你读到这里肯定会不耐烦的吐槽，“为什么一个小小的AI绘画会有这么多东西”，不得不说，当前的AI绘画技术确实正朝着高度专业化的方向演进，需要掌握的前置知识不仅多，而且前后衔接紧密。到目前为止所介绍的内容，基本还都属于2023年的技术体系。但不论怎么说，只要你扎实掌握SD1.5的生态与绘图逻辑，即使面对最新、最前沿的AI绘画技术，也能够快速上手。

接下来，我们继续聚焦SD1.5生态系统中的一项实用功能——局部重绘（Inpaint）。

什么是局部重绘？简单来说，就是当你生成了一张整体氛围很棒、但某个细节却不尽人意的图像时，通过划定区域指示AI重新绘制该部分，其余区域则保持不变。例如下图所示：

AI既然能生成整张图像，仅修改局部自然不在话下。局部重绘可以说是一项非常重要的基础技术，无论是给照片中的人物换装，换脸，换背景，还是从照片中抹去某个不需要的物体或人物，都需要局部重绘技术作为基底

目前实现局部重绘的方式有多种，各有优劣。（主流方案包括ControlNet中的inpaint专用模型，以及ComfyUI生态系统中的comfyui-inpaint-nodes，BrushNet插件等）。

除了局部重绘，还有一个值得特别关注的技术——IPAdapter。简单来说，它是一种“风格迁移”工具，允许用户额外输入一张参考图像，AI 在生成新图像时，会借鉴这张图片的风格与内容元素，从而生成视觉上连贯、风格接近的作品。

举个例子，当你在网络上偶然看到一张风格独特、非常符合你审美的插画，你想让你的AI也能绘制这种风格的图片，但是由于它的绘画风格过于个性化，找不到现成的这种风格的大模型或者Lora，此时你只需要将心仪的图片作为参考输入，AI 就能在此基础上生成类似风格的图像，大大降低了风格化创作的门槛。

讲完这些辅助技术，现在我们来深入聊聊 AI 绘画的核心：AI 到底是如何“画”出一张图的？在理解这一点之前，不妨先回忆一下人类画师是如何创作的：他们通常从构图思路出发，一步步打草稿、定轮廓、铺色、细化，整个过程逻辑清晰、步骤严密。但 AI 的创作方式完全不同——它使用的不是纸和笔，而是“噪声”“概率”和“潜空间”。

人类画师起步是一张白纸；而 AI 起步，是一张布满随机噪声的图像。AI 绘画的本质，就是一个不断去除噪声、逐渐显现结构的过程，它不是在“绘制”，而是在“演化”。

至今为止，我们所见到的所有 AI 绘画乃至 AI 视频，底层都依赖于一项根本技术——Diffusion（扩散）算法。其具体原理复杂，不在此阐述，但基本步骤正如上图所示：AI 从完全杂乱无章的状态开始，逐步推演出一个有意义的画面。

回顾一下AI是如何学会“绘画”的？它是通过海量数据训练而来的——数以亿计的图像被输入进模型，它从中学习像素之间的统计规律和视觉模式，也仅此而已了。AI 并不“懂”它在画什么：它不了解物理法则，不能真正理解文字，更不具备审美意识或创作意图。它只是基于所学到的概率分布，计算出最可能符合输入描述的图像结果。

也正因如此，AI 所生成的图像往往是“弱逻辑”的——它擅长风格、质感甚至组合创新，但在需要严格逻辑支撑的图像生成（如设计图纸、解剖示意图、工程制图等）方面表现非常差。现在依然如此（并且这与训练集大小无关）。

以上便是关于Stability Diffusion 1.5（SD1.5）的简要介绍，相信你已经对其生态系统有了一个整体性的认识。需要注意的是，本文是从宏观视角梳理SD1.5的发展脉络与技术背景，更多细节和深入的技术内容，还需要在具体使用和进一步学习中掌握——不过有了这些前置知识的铺垫，后续的学习将会事半功倍。

现在，让我们把目光重新聚焦于Stability.ai这家公司。自2022年8月开源SD1.5以来，它并没有停止迭代的步伐，反而持续推出了多个升级版本的模型，且始终坚持开源共享的策略。

从上方时间轴可以看出，在SD1.5之后，Stability.ai公司陆续发布了多个模型，然而，这些模型在社区中并未引起太大反响，使用率也相对有限。客观来说，Stability.ai公司在SD1.5之后的几次尝试，从传播效果和应用规模上来看，并不算成功。然而除了Stable Diffusion XL（以下简称为SDXL），SDXL是Stability.ai公司继SD1.5后的一个新的顶点。

可以说，SDXL才是SD1.5真正的“继承者”，它不仅延续了前代开源、开放的精神，更在生成质量和视觉表现上实现了质的飞跃。经过几年的生态积累与不断打磨，SDXL已然成为当前主流的专业AI绘画工具之一，其综合能力远优于SD1.5，也正在逐步取代后者，成为创作者和行业应用的新标准。而SD1.5生态正在慢慢的退出人们的视野。

SDXL 与 SD1.5 在模型架构上存在根本差异，这也导致了一个现实问题：SD1.5 生态中广受欢迎的诸多工具（如 ControlNet、LoRA、IP-Adapter 等）并不能直接应用于 SDXL。正因如此，SDXL 在发布初期只能完成基本的文生图功能，缺乏更高级的控制与扩展能力——这也解释了为什么它刚推出时在社区中反响较为有限，用户接受度并不高。

然而，随着开源社区持续不断的努力，原本在 SD1.5 中被验证极为有效的各类技术，逐渐被移植和适配到 SDXL 中。几年发展下来，如今的 SDXL 生态已经非常成熟和完善：不仅覆盖了 SD1.5 所能实现的一切，更扩展出许多新的技术可能性。

从组件类型来看，SDXL 生态与 SD1.5 大致相仿，包括 ControlNet、LoRA、Embedding、IP-Adapter、VAE 和 checkpoint 等核心模块均得以保留和延续。接下来我们将讲解 SDXL 与 SD1.5 的几个关键不同之处。

首先是硬件配置要求。如果只想在本地运行 SD1.5 进行绘图，显卡显存只需 4GB 或以上即可基本满足需求；但如果想要流畅使用 SDXL，对显存和计算能力的要求就显著提高。而若希望基于 SDXL 训练新的大模型（checkpoint），硬件门槛更是水涨船高。

此外，Stability.ai 官方为 SDXL 配套推出了一个 Refiner 模型，宣称配合使用可进一步提升生成图像的质量。但实际应用中，很多用户反馈 Refiner 的效果并不明显，甚至有时几乎感知不到其作用。大家可以忽略它的存在。

（题外话：如果你对动漫、二次元或平面插画内容不感兴趣，可以跳过本章节，直接阅读后续部分。）

众所周知，现今在动漫与平面插画生成领域表现最出色的模型，是来自NovelAI的V3模型（以下简称nai3）。NovelAI是一家专注于AI叙事与图像生成的国外企业，尤其以动漫风格生成技术闻名。nai3可说是当前动漫类AI模型的集大成者——它所生成的图像不仅几乎看不出“AI味”，还自带一种独特且优美的质感，风格多样、细节丰富。甚至可以说，它的“画技”已经超越了大部分人类画师，也因此被许多动画工作室纳入生产流程。

不过，nai3是一个闭源的商业模型，不在SD开源体系中。用户无法将其下载到自己电脑里面运行，只能去他们的官网付费使用。

那么，是否存在效果出众、完全开源、支持本地部署的动漫风格模型？有的兄弟，有的。如今站在开源动漫生成顶端的，便是 illustrious-XL 系列（中文称作“光辉”系列）。像大家耳熟能详的 NoobAI-XL、WAI动漫模型，都属于这一系列。更令人兴奋的是，“光辉”系列完全基于SDXL生态构建——也就是说，只要你掌握了SDXL的基本使用，就能直接调用这些当前最顶尖的开源动漫模型。它们本质上就是SDXL生态系统中的 checkpoint 组件。

对于还不了解光辉系列的同学，这里简单介绍一下：illustrious 是由韩国 Onoma AI Research 团队基于 SDXL 架构训练的专业动漫绘画模型，使用了高质量的 Danbooru 标签数据集进行训练。该项目的领导人是宋敏（Song Min），他也是 Onoma AI 公司的 CEO。该模型的论文于 2024 年 9 月 30 日正式发表，而实际上 v0.1 版本早在 9 月 25 日就已率先在开源平台 Civitai（C站）发布。

截至 2025 年 3 月 18 日，光辉模型已经迭代到 v2.0 版本。这一代模型使用了超过 2000 万张动漫图像进行训练，涵盖了截至 2024 年 8 月的各类动漫、游戏角色形象，以及此前众多知名画师的风格。这意味着，你只需通过提示词指定某个人物或画风，光辉 2.0 几乎都能高质量地还原出来。而 NoobAI-XL 则是在光辉的基础上做了进一步优化，表现更为出色。

值得一提的是，光辉系列虽然基于 SDXL，但其架构和训练方法具有一定的特殊性，使它不同于常规的 SDXL 派生模型，甚至可以说自成一派。这也带来一个技术细节：SDXL 生态中常用的 LoRA、ControlNet 等控制组件并不能直接用于光辉系列，必须是专门为光辉系列设计的Lora和ControlNet才行。不过目前光辉自身的生态系统已经比较成熟，不在此处过多介绍了。

不过想要完全驾驭光辉系列模型还是有点难度的，你需要仔细阅读其官方手册和高阶专业提示词写法。

如果你学习 AI 绘画的主要目标是生成动漫类图像，那么掌握 SDXL 生态加上 Wan2.x 这样的视频模型已经完全足够。至于其他诸如 Flux、Qwen-Image 等架构，它们对设备要求极高，且在动漫生成领域的效果远不如光辉系列那么出色——它们更侧重于真实系图像的生成，非专攻动漫插画方向的朋友可以暂不深入。

相信不少朋友都有过这样的疑问：明明SD3.0和SD3.5是在SDXL之后推出的，按理说性能应该更强大，可为什么当前主流使用的仍然是SDXL，而非更新的SD3系列？这背后其实隐藏着一个关于技术路线、开源理念、公司战略以及团队变动的多层故事。

首先，Stability AI陷入了严重的财务危机，公司亏损数千万美元，资金链的压力直接影响了其技术推广和新模型的生态建设。

其次就是SD3系列的许可协议争议，简而言之就是他们想搞“半闭源”，这引起全球最大的Stable Diffusion资源库之一CivitAI宣布暂时禁止所有与SD3相关的资源，公众对SD3系列的信任破裂。信任一旦破裂，社区的推力也随之消失。

正是由于Stability AI内部的财务困境、管理问题以及可能的技术路线分歧，以Robin Rombach为首的原Stable Diffusion核心团队选择集体离职，领导层的真空和核心人才的流失，严重影响了公司的稳定性和研发进度。

Stable Diffusion核心团队离职后，他们迅速创立了Black Forest Labs（黑森林工作室），这家新公司获得了3200万美元的种子轮融资，并致力于推进生成式深度学习模型的发展，2024年8月，Black Forest Labs推出了他们的首个产品：FLUX.1系列模型。它在图像细节、提示词遵循能力、风格多样性和复杂场景生成方面表现出色，被认为在性能上超越了Midjourney、DALL-E 3以及Stable Diffusion 3系列。

从某种意义来说，FLUX才是接续SD1.5、SDXL精神的“正统进化”。更重要的是，它依然坚持开源。随着社区陆续推出基于FLUX的ControlNet、LoRA、超分模型和IPAdapter等，一个围绕FLUX的新生态正在缓慢但坚定地形成。

不过，即便FLUX被公认为当前综合能力最强的生成模型，它仍有一个绕不开的短板——极高的硬件门槛。单个FLUX模型就占用16GB存储空间，而想要舒服的生成图像，建议显存不低于16GB，这意味着你需要一张RTX 4080、4090或新一代的5070Ti、5080、5090等高端显卡。这还只是“使用”的门槛，如果要在此基础上训练新的checkpoint或LoRA，则只有专业工作室才能承担得起这样的算力成本。

正因如此，FLUX目前的生态丰富度远不如SDXL，发展速度也相对缓慢。它展现出了技术的天花板，却也暴露了AI平民化之路依然漫长的现实。

如果你打算深入探索Flux生态，以下几个关键技术值得你在学习过程中重点关注——它们不仅是Flux体系的核心组成部分，也直接影响到实际应用的体验与效果。

1. Flux局部重绘与扩展：flux1-fill-dev 与SD1.5和SDXL使用通用模型处理重绘与外扩（inpainting/outpainting）不同，黑森林工作室专门为这一任务训练了一个独立大模型：flux1-fill-dev。该模型体积约为16GB，在细节连贯性和空间合理性方面表现更为精准。

2. 风格迁移工具：Redux 虽然Flux生态中已有IPAdapter可实现风格参考，但官方还推出了更专业的风格迁移模型——Redux。它在商业级图像生成中表现优异，尤其适合电商场景，例如模特换装、产品精修、高质感静物图等。不过，Redux的操作门槛较高，需一定的调试经验才能发挥其真正实力。

flux1-fill-dev 与 Redux 被合称为 Flux Tools，可视为Flux面向专业应用的“增强套件”。

3. 提升真实感：Flux Krea Dev 针对社区反馈“Flux出图‘AI味’太重”的问题，黑森林工作室进一步推出了Flux Krea Dev（同样约16GB）。该模型在光影、材质和构图的自然度上有显著提升，生成结果更接近真实摄影，实用性大幅增强。

4. 万物迁移技术：ACE++ 这是阿里通义实验室基于Flux架构开源的一组LoRA模型，中文常称作“万物迁移”。它包括三个功能模块：

人物肖像迁移，区域增删物体，物体特征替换

ACE++ 极大扩展了Flux在内容编辑方面的灵活性与控制精度。

5. 智能修图：Flux Kontext Dev 这是一个功能导向的指令响应模型。你可以将它理解为“能听懂人话的修图师”——只需用自然语言描述修改需求，例如“去掉水印”“调整色调为暖色”“把天空换成夜晚”，它就能智能地识别图像区域并执行相应编辑。其应用场景非常广泛，从简单的去水印到复杂的多对象替换均可实现。

我知道大家肯定还想知道国内的一些AI绘画技术的历史发展，但不得不承认，相较于国外成熟的开源生态，国内的AI绘画应用在很长一段时间内处于“用户体验优先、技术开放滞后”的状态。许多面向普通用户的国内AI绘画平台，绘画网站和小程序，确实存在体验局限：它们往往以“免费试用几次”作为引流策略，但生成效果参差不齐、可控性较弱，甚至很多底层模型仍是基于Stable Diffusion微调或间接使用，却在操作流程和功能层面做了大量简化与封闭处理。更令人不解的是，一些模型分享社区居然也对下载和访问设置付费门槛——这与Hugging Face、CivitAI等国际平台坚持的开放共享精神背道而驰。

因此，如果读者是希望在创作或生产环境中真正使用AI绘画，我依然更推荐此前介绍过的Stable Diffusion、Flux等开源体系。它们不仅在模型性能、可控性、插件生态上更为成熟，更重要的是——它们免费、自由，并且被全球开发者持续迭代。

（2025.12补充：最近这段时间，闭源商业AI绘画产品的发展势头越来越猛。像视频生成领域的Sora2、Vidu Q2，以及图片编辑类的nano banana pro等模型，不仅在效果上大幅提升，操作也愈发简单直观，它们大多融合了当前强大的语言模型，用户只需输入几句话、调整几个设置，就能快速生成高度符合需求的图像或视频，效率提升非常显著。即使这些模型未来开源了，它们巨大的参数量也决定了很难在消费级显卡上流畅运行——换句话说，我们依然绕不开“付费使用”的现实。说实话，作为一个长期关注AI绘画领域的博主，我也开始感到一丝迷茫。目前以ComfyUI为代表的开源方案，虽然灵活且可控，但更多局限于相对简单的任务。对于高级的图像编辑、视频生成等复杂需求，想在本地设备上实现几乎不太可能。这种能力上的差距，不禁让我对开源路线未来的竞争力，产生了一些不确定感。）

不过，我们也不能一概而论。尽管消费级应用表现参差，近两年来，国内科研团队和企业也在积极推进具有竞争力的开源模型。

例如，阿里巴巴通义千问团队发布的Qwen-VL（Qwen-Image）系列模型，不仅支持高质量的图像生成，更在视觉-语言联合理解与推理上表现突出，展现出强大的跨模态能力。它完全开源，可免费商用，极大地降低了技术使用的门槛。

而真正让人惊艳的是阿里云通义万象团队推出的Wan（万）系列视频生成模型。它以视频生成为主，这一模型开源发布后，迅速成为国际学术界和开发者社区关注的热点。

可以说，国内的AI绘画技术正在两条路上并行：一条是面向大众的、轻度但商业化的产品路径；另一条则是真正回归技术本质、坚持开源共享的科研与工程之路。而后者，才真正代表中国AI的未来，代表了中国AI的硬核实力与开放胸怀。

（2025.12补充：最近看到阿里巴巴开源的一款绘画模型——Z-image，确实令人眼前一亮。它的模型体积控制得非常小，参数规模也相对精简，但实际生成效果却相当出色，甚至能与Flux2这样的主流模型媲美，而且还支持文字生成功能。反观Flux2，虽然性能不俗，但在模型体量上显得有些“臃肿”。Z-image的出现，让我重新看到了希望：或许在不久的将来，我们真的能够实现“小而美”的AI模型——不仅效果不打折，还能更轻量、更易用、更亲民。）

接下来为大家简单介绍一下Qwen-Image 和 Wan

首先，Qwen-Image 是由阿里巴巴通义千问团队推出的首个图像生成基础模型。可以把它理解为“中国版的Flux”——它在整体架构和性能特点上与Flux较为接近，优缺点和Flux差不多,但也具备一些独特的优势，它支持中文提示词输入，不再是将中文翻译为英语输入给模型了，这意味着模型本身具备中文语义理解能力，生成过程更贴合中文语境。其次，就是其强大的文字控制能力，Qwen-image生成的图像中的文字都极其清晰、准确，你可以用它生成各种艺术字，本文最开始的图7和图8就是由Qwen-image所绘制，它不仅支持绘制中文字，英文和数字也支持；在推出Qwen-Image后的一段时间后，通义千问团队又发布了一款名为Qwen-image-edit的模型，可视为国内首个类似“Flux kontext”的图像编辑模型，唯一的不同依然是其强大的文字绘制能力

不过需要注意的是，Qwen-Image 作为较新推出的模型，其生态系统还在逐步完善中，加之对计算资源的要求较高，因此目前若非对文字准确性有特别需求，一般仍建议优先选择生态更成熟、支持更广泛的 SDXL 或 Flux 系列。

接下来介绍一下 Wan 视频模型。严格来说，AI视频生成已经跨入另一个技术赛道，不同于AI绘画的静态生成逻辑，因此我不会在这里展开讲太多细节，只说几点我认为有趣的内容。

在 Wan 出现之前，市场上已经涌现出不少视频生成模型，但它们往往在连贯性、清晰度或语义还原度方面存在局限。Wan 的推出和完全开源，正是在这一背景下的重要突破，因其出色的综合生成能力，不少企业与工作室已经将其作为基础模型进行二次开发和使用。Wan系列目前有两个模型，Wan2.1和Wan2.2，它们都非常擅长写实风格的视频生成，但是在动漫二次元领域，其生成效果就不是那么好了，我通过大量测试发现，发现Wan2.2非常适合绘制3D动画，而在绘制平面2D动漫的时候会倾向于生成live2d，骨骼动画那种类型，并非我们通常所见日本番剧那样的动画风格

如果你曾关注过AI动漫视频方面的内容，可能听说过Bilibili自研的Index-anisora动漫视频模型，这是一款专门针对动漫类的视频生成模型，可以实现首尾帧动画，动态漫画，图生视频，骨骼动画等诸多内容，但是其第一版的效果并不是很好，也没在社区引起多大的反响，后来团队基于Wan模型、结合B站庞大的二次元数据进行训练，推出的v3.1版本效果提升显著，明显好于初版的，但它对我们普通玩家有一个致命的缺点，就是要极高的电脑配置，5090来了都运行不了这个动画模型，除非是超大显存的专业计算卡。

视频演示地址：www.bilibili.com/video/BV1iM…

显然我们大多数人肯定是无法体验到Index-anisora了，但是有一款视频模型额外引起了我的注意，那就是AniWan2.1模型，它由日本的hakoniwa基于Wan2.1训练而成，是一个专门绘制动漫视频的模型，与Index-anisora相比，它的模型体积和配置要求友好得多，和FLUX模型相近，但生成效果却相当出众，在我看来甚至不输Index-anisora太多，事实上，本文中展示的所有动漫视频，都出自AniWan2.1。

视频演示地址：www.bilibili.com/video/BV1tv…

以上就是自2022年以来AI绘画发展的主要脉络。除了以上提到的模型与体系，其实还有许多值得一提的项目——例如OpenAI的Sora、HiDream、Cosmos、OmniGen、腾讯混元Hunyuan、ToonComposer、KLing等。但它们或因完全闭源、效果未达第一梯队，或因生态开放程度有限，我并没有逐一展开。毕竟，本文的关注点始终聚焦在那些真正推动行业开放与创新的力量上。

讲到这里，可能很多读者会产生一个实际的问题：这么多模型，到底该如何上手使用？

若想顺畅地在本地运行上述AI绘画模型，你的电脑需要满足两个基本条件：一是Windows操作系统（Linux也可以），二是拥有一块性能足够的英伟达显卡——没错，显存越大，体验越丝滑。

而软件方面，目前主流的选择有三：SD-WebUI、SD-Forge，以及ComfyUI。很多人会推荐新手从SD-WebUI开始，它确实对初学者更友好。但既然你已经读完本文，对AI绘画的整体体系有了基本认知，我反而更建议你直接尝试ComfyUI。

ComfyUI不仅是一个工具，更是一个高度可定制、兼容极广的“模型容器”——世界上绝大多数开源绘画模型都能在此运行，本文中所有示例图像和视频都是在ComfyUI中绘制。我知道，很多人第一次打开ComfyUI，都会被它那个布满节点、仿佛电路图般的“工作流”界面吓到。但请别担心，你可以把它理解为一种“编程版的连连看”，视觉复杂，却逻辑清晰。更重要的是，你并不需要一开始就搭建复杂流程——很多高级节点组，其实根本非必需。

至于如何获取ComfyUI？我明白，很多对AI绘画感兴趣的朋友并非技术背景，自行从GitHub构建工程确实门槛较高。这里我强烈推荐B站UP主“秋葉aaaki”制作的整合包，解压即用、一键启动，对非开发者非常友好，也极大降低了入门成本。

以后，当你在网上冲浪时，如果发现一个特别惊艳的AI绘制的图，你首先要问的不是“这是用哪个软件画的？”，“这用的是什么模型？”，而是要问“这是属于哪个生态的，是SD1.5，SDXL，还是Flux等等”，要学就挑准一个生态好好学，不要一下子学SDXL，一下子又跳回Flux

读到这里，你是不是迫不及待的想立马去学习AI绘画了，但是我想说，先别急，在冲动之前，不妨先冷静下来问自己一句：我真的需要深入学习AI绘画吗？

以我自己的体验来说，学习AI绘画远不止“提示词+生成”那么简单。它是一个极其消耗时间、耐心与硬件资源的过程。大多数时候，你并不是在创作，而是在反复下载模型、调试组件、兼容版本、调参试错。学习曲线陡峭，且学成之后，若没有真正的应用场景，很容易陷入“技术闲置”。就拿我来说，尽管对各类模型、体系如数家珍，但由于缺乏美术基础，始终难以将AI绘画直接转化为有真正价值的产出。它唯一带给我的，或许就是写下如你正阅读的这类文章，赚取些许流量与广告费——而这，显然不是大多数人学习AI绘画的初衷。

那么，谁才最适合系统性学习AI绘画？是不会画画的人吗？恰恰相反。真正最该掌握这项技术的，其实是本身就拥有深厚美术功底的专业画师和艺术从业者，现在的AI绘画体系已经非常强大了，不应该再对其投以鄙夷的目光，它是一个能迸发惊人生产力的辅助工具。它的价值不在于取代，而在于赋能，AI绘画是人类在人工智能时代的艺术创作，其艺术主体依然是人。

一个能熟练运用AI技术的画师，将如虎添翼。AI擅长什么？是高效率、高精度的风格模仿、元素生成与画面渲染；但它缺乏什么？是逻辑、叙事、情感，以及“人与景”“人与人”之间有机的、符合故事性的交互，而这，正是人类独有的能力。目前绝大多数优秀的纯AI作品，仍集中于单人立绘、风格化场景或特效视觉，而一旦涉及多角色互动、带有戏剧张力或叙事层次的构图，纯AI生图就显得力不从心。

但这绝不意味着AI绘画没有价值。事实上，它已经被游戏公司、广告设计、影视概念等行业纳入工作流程，承担起前期灵感探索、氛围图绘制、元素生成等任务。工具本身没有对错，关键在于用法。

相信很多画师都在意别人说自己的作品是AI画的，我的态度是，不必执着于每一个人的看法。有些人认定“AI出品=无价值”，甚至对其嗤之以鼻，其实那些总是在评论区指责是AI画的人，和那些总是在3D作品中紧盯“穿模”的人是类似的心态，他们未必理解技术背后的逻辑，只是想以此来彰显自己的“聪明”

如果一幅画真正打动人，那么无论它是手绘的还是AI辅助的，都已实现了它的使命。最后，我想以贡布里希的一句话作为结尾：没有艺术，只有艺术家