“马爸爸开心回国图”,图片使用Midjourney生成)
简介
最近和ChatGPT大语言模型一样大火的还有图片生成AI(Text-To-Image),大家耳熟能详的Midjourney、Stable Diffusion、Dalle2、Imagen等等都是图片生成AI,尤其是百度的文心一格上线后,脑洞大开的图片、中译英的问题都引发了广泛的讨论(调侃)。
上面的Midjourney(这个目前已经不能免费使用了,需要月付10刀)、Stable Diffusion、Dalle2这3个Text-To-Image AI我都试用了,文心一格还在排队中,和前一篇说的大语言模型LLM一样,感觉还是比较震撼的,尤其是一些prompt大师的作品,让人感觉惊艳。
顺带说一句,目前已经有人靠提供prompt赚钱了,我看到外网有专门的网站提供各种专业的prompt,帮助你获得想要的图片,这些prompt以每一条数美元的价格出售。所以,手快的人已经借着风口赚钱了。
说说存在的问题吧,只要你亲自试用过,还是很容易发现目前这些图片生成AI的不足,例如中文理解的问题、例如你没办法让它在图片上生成特定的文字、例如带玻璃窗的画面容易出现物体穿透玻璃的情况等等。
例如在Midjourney中,我就没办法给图片生成特定文字。有没有哪位prompt大师做到的?
一句话原理
图片生成普遍采用Diffusion模型,这个模型的原理其实可以从米开朗琪罗的一句话中了解:
The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material. - Michelangelo
米开朗琪罗指着一块未经雕琢的大理石说:“雕像本来就在大理石里,我只是把多余的部分去掉”。
对于Diffusion模型来说,“图片本来就在那里,我只是把噪音去掉”。一张完全高斯噪音的图片,根据用户输入的要求,逐步剔除噪音,剩下的就是用户所要的图片了。
思维导图
这里尝试用一张思维导图,来梳理图片生成AI的基本信息,主要是面向非AI相关行业的,大家先了解个大概吧,想深入了解的小伙伴,请自行网上找资料。
(本文正在参加 人工智能创作者扶持计划)