关于图片生成AI，我整理了一张思维导图一张思维导图，介绍最近大火的图片生成AI(Text-To-Image，如Midjo

“马爸爸开心回国图”，图片使用Midjourney生成）

简介

最近和ChatGPT大语言模型一样大火的还有图片生成AI(Text-To-Image)，大家耳熟能详的Midjourney、Stable Diffusion、Dalle2、Imagen等等都是图片生成AI，尤其是百度的文心一格上线后，脑洞大开的图片、中译英的问题都引发了广泛的讨论（调侃）。

上面的Midjourney（这个目前已经不能免费使用了，需要月付10刀）、Stable Diffusion、Dalle2这3个Text-To-Image AI我都试用了，文心一格还在排队中，和前一篇说的大语言模型LLM一样，感觉还是比较震撼的，尤其是一些prompt大师的作品，让人感觉惊艳。

顺带说一句，目前已经有人靠提供prompt赚钱了，我看到外网有专门的网站提供各种专业的prompt，帮助你获得想要的图片，这些prompt以每一条数美元的价格出售。所以，手快的人已经借着风口赚钱了。

说说存在的问题吧，只要你亲自试用过，还是很容易发现目前这些图片生成AI的不足，例如中文理解的问题、例如你没办法让它在图片上生成特定的文字、例如带玻璃窗的画面容易出现物体穿透玻璃的情况等等。

例如在Midjourney中，我就没办法给图片生成特定文字。有没有哪位prompt大师做到的？

一句话原理

图片生成普遍采用Diffusion模型，这个模型的原理其实可以从米开朗琪罗的一句话中了解：

The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material. - Michelangelo

米开朗琪罗指着一块未经雕琢的大理石说：“雕像本来就在大理石里，我只是把多余的部分去掉”。

对于Diffusion模型来说，“图片本来就在那里，我只是把噪音去掉”。一张完全高斯噪音的图片，根据用户输入的要求，逐步剔除噪音，剩下的就是用户所要的图片了。

思维导图

这里尝试用一张思维导图，来梳理图片生成AI的基本信息，主要是面向非AI相关行业的，大家先了解个大概吧，想深入了解的小伙伴，请自行网上找资料。

图片生成AI-with-qr-low.png

(本文正在参加人工智能创作者扶持计划)