AI 画图这 8 年:80% 的图被替代了,值钱的是剩下那 20%

0 阅读11分钟

微信被刷屏了,各种群里都是 gpt-image-2 生成的抖音直播截图,其他群友也发出自己生成的 AI 图。推特上也是,时间线每次刷新都是新的爆款。我常用的几个社交平台基本都没幸免。

避无可避。

我刷了一会儿,脑子里突然想到——之前 Nano Banana 刚出来的时候、GPT-4o 原生生图的吉卜力潮起来的时候,也都是这么疯狂个几天,案例满天飞。一波接一波。但 AI 生图这件事,到底是怎么一步步走到今天的,我好像从来没认真回头看过。

想了想,干脆把这几年的生图模型挨个扒了一遍。StyleGAN、DALL·E、Stable Diffusion、Midjourney、Flux、GPT-4o 原生生图、Nano Banana、gpt-image-2,每一代怎么出来的、解决了什么问题,捋清楚之后再写今天这篇文章。

我是学设计出身的,画过画也做过建模,AI 生图这几年的变化,我的体感比一般人更直接一些。

注:这是我 2019 年画的。


它是怎么从「画不了人脸」做到「以假乱真」的

AI 生图这些年一共跨过了三个技术阶段,每一阶段都是因为解决了上一阶段的痛点才跑出来的。

第一阶段:GAN 时代(2014-2021)

对抗学习,两个 AI 互相"较劲"

GAN(生成对抗网络)的原理挺有意思的。你可以想象成两个人在对练,一个是"造假者"负责画假画,一个是"鉴定师"负责分辨真假。造假者画了一张,鉴定师说「假的」,造假者就回去改,改完再拿来。这么反复博弈几百万轮,造假者就越来越强,最后画出来连鉴定师都分不出真假。

这个阶段最标志性的产物是 2018 年英伟达的 StyleGAN。有个网站叫「This Person Does Not Exist」,每刷新一次就出来一张不存在的人脸。

这是 2018 年的 AI 画的。

但 GAN 有个天生的毛病——只会画一类东西。你拿 7 万张人脸训练它,它就只会画人脸。你说「帮我画个穿宇航服的柴犬在月球喝咖啡」,它听不懂。能力很窄,像一个只会画肖像的画师。

第二阶段:Diffusion 时代(2021-2023)

从一团噪点里还原出图

转折点是 2021 年 OpenAI 的 DALL·E 和 2022 年的 DALL·E 2。

这张是 DALL·E 1 画的——穿着芭蕾裙的萝卜宝宝遛狗。画风像小学生涂鸦,256x256 像素,糊得一塌糊涂。但当年这玩意一出来整个 AI 圈都炸了,因为 AI 第一次能听懂人话按描述画东西了。

这背后是扩散模型(Diffusion Model)接过 GAN 的棒。原理有点反直觉:先给清晰图不断加噪点变成一团乱码,然后训练 AI 学会倒着来,从一团噪点里一步步去掉噪点还原出清晰的图。听起来怪,但效果比 GAN 好得多,训练过程也更稳定。

2022 年 4 月 DALL·E 2 出来,画质直接跳了一个时代。

但真正炸锅的,是 2022 年 8 月的 Stable Diffusion。它做了一件当时没人想到的事——完全开源。代码、模型、权重全部公开,消费级显卡就能跑。

开源这件事把原本锁在实验室里的画笔发到了全世界。ComfyUI、WebUI、ControlNet、LoRA,整个生态一下子就炸了。同一时期起来的还有 Midjourney,走 Discord 社区路线,出图质量成了摄影级。

第三阶段:原生多模态时代(2023-2026)

文字和图在同一个大脑里

扩散模型解决了画质和听话,但还有个问题——画面总有一种「AI 味」,一看就知道不是真的。而且让 AI 在图里写字基本就是乱码。

2023 年 10 月 DALL·E 3 集成进 ChatGPT,理解力跃升。

看图里那行英文「I JUST FEEL SO EMPTY INSIDE.」(内心感到空虚),是个双关梗——牛油果里面确实是空的(核被挖掉了)。AI 不仅理解了这个梗,还把文字清清楚楚渲染在对话气泡里。之前的模型画文字基本是乱码。

2024 年 Flux 出来,用了新架构叫 DiT(Diffusion Transformer),把扩散模型的画技和 Transformer 的语义理解缝合在一起。文字渲染准确率飙到 88-92%,做商用海报都能用了。

「A text-to-image model from Germany」「Black Forest Labs presents Flux」,文字一个字母都不糊。这种水平放在 SD 时代是不敢想象的。

真正的质变是 2025 年 3 月的 GPT-4o 原生图像生成。"原生"这个词很关键。之前 ChatGPT 生图是调用 DALL·E——ChatGPT 理解你的意思,翻译给 DALL·E 去画,中间有信息损耗。GPT-4o 是自己画,文字和图片在同一个模型里处理,一边聊一边改图,像跟画师对话一样。

这一波直接引发了全网的吉卜力风潮。你把照片丢给它说「改成宫崎骏风格」,几秒钟出来一张跟《千与千寻》一模一样质感的图。

连《蒙娜丽莎》都被人拿去改成了吉卜力风格。

那段时间淘宝上也迅速出现了一批"宫崎骏风格头像定制"店铺,3 分钟出图、相似度 90%、不满意免费修改不限次数。用户还没从热度里出来,产业链已经跟上了。

朋友圈被刷屏整整一周,GPU 都烧了,Sam Altman 发推说「GPU 在融化」。

GPT-4o 原生生图火起来之后,Google 没落下。2025 年底,Google DeepMind 推出了 Gemini 2.5 Flash Image,代号「Nano Banana」。2026 年又推出了基于 Gemini 3 Pro 的进阶版本——Nano Banana Pro。

Nano Banana 这条线跟 OpenAI 走的是完全不同的产品思路。它最强的两个点是角色一致性和多图融合。你上传 2-3 张参考图,它能把这些人物/物体融合到同一张图里还保持样貌一致;你说「给这个人换个场景」,角色脸不会变、衣服不会乱。这对做系列插图、绘本、游戏立绘的人来说简直是神器——以前做系列视觉最头疼的就是第二张和第一张不是一个人脸,Nano Banana 直接把这个问题解决了。

看这张九宫格,同一个女孩、9 种场景和姿势,但脸、发型、妆容、服装都保持一致。这种效果以前要请真人拍一组,要摄影师、场地、服装、灯光,现在一个 prompt 就搞定了。

速度也是它的另一个卖点。Flash 版本是毫秒级出图,比 Midjourney、Flux 都快一个量级,特别适合需要反复迭代的场景。

我现在日常用得最多的其实就是 Nano Banana 2 和 Pro。

然后就是 2026 年 4 月 21 日的 gpt-image-2。OpenAI 加了 Thinking Mode——AI 画之前先"想"一遍,构图、配色、文字位置都规划好了再下笔,甚至会联网搜参考。文字渲染准确率 99%,分辨率到 4K,一个提示词同时出 8 张风格一致的图。发布 12 小时就在图像竞技场上冲到第一,领先第二名 242 分。

我自己用 gpt-image-2 生了一张成都的城市宣传海报。中国风的飘带构图,熊猫、双子塔、锦里廊桥、红裙汉服女子,"SPRING 2026" "千年锦官城 魅力成都" 中英文字体都渲染得清清楚楚,一张图一次性搞定。放两年前,这种效果设计师得花一整天,现在一个 prompt 直接出图。

完整的提示词我放在评论区,感兴趣可以自己试试。

三个阶段连起来看,AI 解决的是一条递进的问题链:

  • GAN:画得像
  • Diffusion:画得多、画得稳、听得懂话
  • 原生多模态:画得准、画得一致、能对话迭代

AI 现在能替代什么

聊完原理,我想聊一个更实际的问题——身边哪些事情已经被 AI 替代了?

这两年我观察下来,最明显的是写作类工作大量被替代。公众号排版、文案初稿、海报文字、小红书爆款标题、产品描述,这些原本要专人写的活,现在 ChatGPT 一句话就出来。图片也是一样,详情页、配图、证件照、修图、写真这些标准化的视觉需求,AI 已经能做到 80% 水平。

就 4 月份,这一个月时间我自己做了一个教育行业的项目,全流程用 AI 跑下来,一个月变现 26540 元。

说实话,如果倒退两年,这个需求量人工接是做不完的。但现在,从选题、到出图、到排版、到批量输出,一个人加一套工作流就能解决。时间成本和人力成本被压缩了一个数量级。

可复制的点在哪?我观察有三条:

第一,找 AI 做得到但客户搞不定的场景。 不是所有行业的人都愿意学 AI、也不是所有人都能把 AI 用好。你帮他把 AI 从一个"工具"变成"交付物",中间的差价就是你的利润空间。

第二,批量胜过一次性。 AI 单张生成的价值不高,但如果一个需求是 100 张、1000 张的级别,AI 对比传统外包的优势就出来了。电商详情页、教材插图、批量证件照这种场景最适合。

第三,结合行业知识。 单纯会用 AI 的人很多,但懂行业规则、懂客户需求、能把 AI 输出改到客户满意的人不多。我接教育行业的单子不是因为 AI 用得好,是因为知道教育行业的图该长什么样。

所以 AI 替代的是执行层,但执行层的上面是思考。你得知道做什么、为什么做、做给谁看、做成什么样合格——这些 AI 替代不了。

这也是为什么我接下来再看那些"AI 一键月入过万"的教程会觉得不靠谱。它教你的是点按钮,不是思考。点按钮谁都会,思考谁都不会。


工具变了,但需求没变

古代画师用毛笔在绢帛上画工笔花鸟,后来有了油画颜料和画布,再后来有了铅笔、素描纸、Photoshop、数位板,现在有了 AI 和键盘。

每一次工具更换,都有人说「画家要失业了」。油画出来的时候工笔画师慌了,摄影出来的时候油画家慌了,PS 出来的时候插画师慌了,AI 出来的时候所有画画的人都慌了。

但回头看,每一次工具革命之后消失的从来不是画家这个职业,消失的是"拿旧工具重复劳动"的那部分工作。工笔画变成了艺术,油画变成了创作,手绘变成了风格。

AI 生图也是一样。标准化的、重复的、有明确样式参考的,那 80% 的图,现在 AI 已经能做得又快又好。这部分不值钱了,也回不去了。

真正值钱的是剩下的 20%——你怎么用这个工具。

同样一个 gpt-image-2,同样 99% 的真实感。

有人拿去生成"Claude 回归百度""余承东接任苹果 CEO",骗流量、造假新闻、消耗别人的信任。

有人拿去对接真实行业的需求,批量产出教育行业的插画、产品图、海报,一个月变现 3 万。

同一把刀,有人切菜,有人伤人。

工具本身不带善恶,它只是把你的想法放大了一百倍。你如果想的是"怎么割一波韭菜",AI 让你割得更快;你如果想的是"怎么帮一个真实的行业把效率提上去",AI 让你做得更远。

AI 接走了 80% 的活。剩下 20% 是思考、判断、审美和选择。

这 20%,决定了你是在制造问题,还是在解决问题。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

谢谢你看我的文章,我们,下次再见。


🔗 往期推荐:

扫描下方图片中我的微信二维码备注"进群",拉你进社群一起交流学习!