AI 画图这 8 年：80% 的图被替代了，值钱的是剩下那 20%微信被刷屏了，各种群里都是 gpt-image-2 生

微信被刷屏了，各种群里都是 gpt-image-2 生成的抖音直播截图，其他群友也发出自己生成的 AI 图。推特上也是，时间线每次刷新都是新的爆款。我常用的几个社交平台基本都没幸免。

避无可避。

我刷了一会儿，脑子里突然想到——之前 Nano Banana 刚出来的时候、GPT-4o 原生生图的吉卜力潮起来的时候，也都是这么疯狂个几天，案例满天飞。一波接一波。但 AI 生图这件事，到底是怎么一步步走到今天的，我好像从来没认真回头看过。

想了想，干脆把这几年的生图模型挨个扒了一遍。StyleGAN、DALL·E、Stable Diffusion、Midjourney、Flux、GPT-4o 原生生图、Nano Banana、gpt-image-2，每一代怎么出来的、解决了什么问题，捋清楚之后再写今天这篇文章。

我是学设计出身的，画过画也做过建模，AI 生图这几年的变化，我的体感比一般人更直接一些。

注：这是我 2019 年画的。

它是怎么从「画不了人脸」做到「以假乱真」的

AI 生图这些年一共跨过了三个技术阶段，每一阶段都是因为解决了上一阶段的痛点才跑出来的。

第一阶段：GAN 时代（2014-2021）

对抗学习，两个 AI 互相"较劲"

GAN（生成对抗网络）的原理挺有意思的。你可以想象成两个人在对练，一个是"造假者"负责画假画，一个是"鉴定师"负责分辨真假。造假者画了一张，鉴定师说「假的」，造假者就回去改，改完再拿来。这么反复博弈几百万轮，造假者就越来越强，最后画出来连鉴定师都分不出真假。

这个阶段最标志性的产物是 2018 年英伟达的 StyleGAN。有个网站叫「This Person Does Not Exist」，每刷新一次就出来一张不存在的人脸。

这是 2018 年的 AI 画的。

但 GAN 有个天生的毛病——只会画一类东西。你拿 7 万张人脸训练它，它就只会画人脸。你说「帮我画个穿宇航服的柴犬在月球喝咖啡」，它听不懂。能力很窄，像一个只会画肖像的画师。

第二阶段：Diffusion 时代（2021-2023）

从一团噪点里还原出图

转折点是 2021 年 OpenAI 的 DALL·E 和 2022 年的 DALL·E 2。

这张是 DALL·E 1 画的——穿着芭蕾裙的萝卜宝宝遛狗。画风像小学生涂鸦，256x256 像素，糊得一塌糊涂。但当年这玩意一出来整个 AI 圈都炸了，因为 AI 第一次能听懂人话按描述画东西了。

这背后是扩散模型（Diffusion Model）接过 GAN 的棒。原理有点反直觉：先给清晰图不断加噪点变成一团乱码，然后训练 AI 学会倒着来，从一团噪点里一步步去掉噪点还原出清晰的图。听起来怪，但效果比 GAN 好得多，训练过程也更稳定。

2022 年 4 月 DALL·E 2 出来，画质直接跳了一个时代。

但真正炸锅的，是 2022 年 8 月的 Stable Diffusion。它做了一件当时没人想到的事——完全开源。代码、模型、权重全部公开，消费级显卡就能跑。

开源这件事把原本锁在实验室里的画笔发到了全世界。ComfyUI、WebUI、ControlNet、LoRA，整个生态一下子就炸了。同一时期起来的还有 Midjourney，走 Discord 社区路线，出图质量成了摄影级。

第三阶段：原生多模态时代（2023-2026）

文字和图在同一个大脑里

扩散模型解决了画质和听话，但还有个问题——画面总有一种「AI 味」，一看就知道不是真的。而且让 AI 在图里写字基本就是乱码。

2023 年 10 月 DALL·E 3 集成进 ChatGPT，理解力跃升。

看图里那行英文「I JUST FEEL SO EMPTY INSIDE.」（内心感到空虚），是个双关梗——牛油果里面确实是空的（核被挖掉了）。AI 不仅理解了这个梗，还把文字清清楚楚渲染在对话气泡里。之前的模型画文字基本是乱码。

2024 年 Flux 出来，用了新架构叫 DiT（Diffusion Transformer），把扩散模型的画技和 Transformer 的语义理解缝合在一起。文字渲染准确率飙到 88-92%，做商用海报都能用了。

「A text-to-image model from Germany」「Black Forest Labs presents Flux」，文字一个字母都不糊。这种水平放在 SD 时代是不敢想象的。

真正的质变是 2025 年 3 月的 GPT-4o 原生图像生成。"原生"这个词很关键。之前 ChatGPT 生图是调用 DALL·E——ChatGPT 理解你的意思，翻译给 DALL·E 去画，中间有信息损耗。GPT-4o 是自己画，文字和图片在同一个模型里处理，一边聊一边改图，像跟画师对话一样。

这一波直接引发了全网的吉卜力风潮。你把照片丢给它说「改成宫崎骏风格」，几秒钟出来一张跟《千与千寻》一模一样质感的图。

连《蒙娜丽莎》都被人拿去改成了吉卜力风格。

那段时间淘宝上也迅速出现了一批"宫崎骏风格头像定制"店铺，3 分钟出图、相似度 90%、不满意免费修改不限次数。用户还没从热度里出来，产业链已经跟上了。

朋友圈被刷屏整整一周，GPU 都烧了，Sam Altman 发推说「GPU 在融化」。

GPT-4o 原生生图火起来之后，Google 没落下。2025 年底，Google DeepMind 推出了 Gemini 2.5 Flash Image，代号「Nano Banana」。2026 年又推出了基于 Gemini 3 Pro 的进阶版本——Nano Banana Pro。

Nano Banana 这条线跟 OpenAI 走的是完全不同的产品思路。它最强的两个点是角色一致性和多图融合。你上传 2-3 张参考图，它能把这些人物/物体融合到同一张图里还保持样貌一致；你说「给这个人换个场景」，角色脸不会变、衣服不会乱。这对做系列插图、绘本、游戏立绘的人来说简直是神器——以前做系列视觉最头疼的就是第二张和第一张不是一个人脸，Nano Banana 直接把这个问题解决了。

看这张九宫格，同一个女孩、9 种场景和姿势，但脸、发型、妆容、服装都保持一致。这种效果以前要请真人拍一组，要摄影师、场地、服装、灯光，现在一个 prompt 就搞定了。

速度也是它的另一个卖点。Flash 版本是毫秒级出图，比 Midjourney、Flux 都快一个量级，特别适合需要反复迭代的场景。

我现在日常用得最多的其实就是 Nano Banana 2 和 Pro。

然后就是 2026 年 4 月 21 日的 gpt-image-2。OpenAI 加了 Thinking Mode——AI 画之前先"想"一遍，构图、配色、文字位置都规划好了再下笔，甚至会联网搜参考。文字渲染准确率 99%，分辨率到 4K，一个提示词同时出 8 张风格一致的图。发布 12 小时就在图像竞技场上冲到第一，领先第二名 242 分。

我自己用 gpt-image-2 生了一张成都的城市宣传海报。中国风的飘带构图，熊猫、双子塔、锦里廊桥、红裙汉服女子，"SPRING 2026" "千年锦官城魅力成都" 中英文字体都渲染得清清楚楚，一张图一次性搞定。放两年前，这种效果设计师得花一整天，现在一个 prompt 直接出图。

完整的提示词我放在评论区，感兴趣可以自己试试。

三个阶段连起来看，AI 解决的是一条递进的问题链：

GAN：画得像
Diffusion：画得多、画得稳、听得懂话
原生多模态：画得准、画得一致、能对话迭代

AI 现在能替代什么

聊完原理，我想聊一个更实际的问题——身边哪些事情已经被 AI 替代了？

这两年我观察下来，最明显的是写作类工作大量被替代。公众号排版、文案初稿、海报文字、小红书爆款标题、产品描述，这些原本要专人写的活，现在 ChatGPT 一句话就出来。图片也是一样，详情页、配图、证件照、修图、写真这些标准化的视觉需求，AI 已经能做到 80% 水平。

就 4 月份，这一个月时间我自己做了一个教育行业的项目，全流程用 AI 跑下来，一个月变现 26540 元。

说实话，如果倒退两年，这个需求量人工接是做不完的。但现在，从选题、到出图、到排版、到批量输出，一个人加一套工作流就能解决。时间成本和人力成本被压缩了一个数量级。

可复制的点在哪？我观察有三条：

第一，找 AI 做得到但客户搞不定的场景。不是所有行业的人都愿意学 AI、也不是所有人都能把 AI 用好。你帮他把 AI 从一个"工具"变成"交付物"，中间的差价就是你的利润空间。

第二，批量胜过一次性。 AI 单张生成的价值不高，但如果一个需求是 100 张、1000 张的级别，AI 对比传统外包的优势就出来了。电商详情页、教材插图、批量证件照这种场景最适合。

第三，结合行业知识。单纯会用 AI 的人很多，但懂行业规则、懂客户需求、能把 AI 输出改到客户满意的人不多。我接教育行业的单子不是因为 AI 用得好，是因为知道教育行业的图该长什么样。

所以 AI 替代的是执行层，但执行层的上面是思考。你得知道做什么、为什么做、做给谁看、做成什么样合格——这些 AI 替代不了。

这也是为什么我接下来再看那些"AI 一键月入过万"的教程会觉得不靠谱。它教你的是点按钮，不是思考。点按钮谁都会，思考谁都不会。

工具变了，但需求没变

古代画师用毛笔在绢帛上画工笔花鸟，后来有了油画颜料和画布，再后来有了铅笔、素描纸、Photoshop、数位板，现在有了 AI 和键盘。

每一次工具更换，都有人说「画家要失业了」。油画出来的时候工笔画师慌了，摄影出来的时候油画家慌了，PS 出来的时候插画师慌了，AI 出来的时候所有画画的人都慌了。

但回头看，每一次工具革命之后消失的从来不是画家这个职业，消失的是"拿旧工具重复劳动"的那部分工作。工笔画变成了艺术，油画变成了创作，手绘变成了风格。

AI 生图也是一样。标准化的、重复的、有明确样式参考的，那 80% 的图，现在 AI 已经能做得又快又好。这部分不值钱了，也回不去了。

真正值钱的是剩下的 20%——你怎么用这个工具。

同样一个 gpt-image-2，同样 99% 的真实感。

有人拿去生成"Claude 回归百度""余承东接任苹果 CEO"，骗流量、造假新闻、消耗别人的信任。

有人拿去对接真实行业的需求，批量产出教育行业的插画、产品图、海报，一个月变现 3 万。

同一把刀，有人切菜，有人伤人。

工具本身不带善恶，它只是把你的想法放大了一百倍。你如果想的是"怎么割一波韭菜"，AI 让你割得更快；你如果想的是"怎么帮一个真实的行业把效率提上去"，AI 让你做得更远。

AI 接走了 80% 的活。剩下 20% 是思考、判断、审美和选择。

这 20%，决定了你是在制造问题，还是在解决问题。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。

🔗 往期推荐：