国产AI作画网站!“爱作画”体验篇

4,151 阅读6分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第28天,点击查看活动详情

碎碎念

前两天我在写CLIP模型的时候顺便玩了一下DreamStudio,就是国外的一个基于Stable Diffusion的AI作画网站。昨天我朋友告诉我他们的产品Beta版也出来了。

网站地址:爱作画 (aizuohua.com)

前因后果

image.png

早在九月中旬的时候他就来问我,说感觉目前的AI作画在国内还是缺口,想试着做一下。因为考虑到伦理问题,AI巨头做的diffusion model大多都不开源的,目前只是对一些大佬开放的。因为我本身更偏学院派,所以考虑的更多的也是AI伦理方面的问题,所以当时想劝退来着。但是他们老板的计划,怎么会因为一点点争议就搁置,之后他就天天加班,一个半月过去了,他们居然真的做了…………

目前我正在做diffusion model相关的部分,作为朋友那必然也要试用一下了。 今天我就从半专业角度谈一下这个网站。

爱作画

他起初和我说基于stable diffusion的时候,我第一感觉是“那不就是做个中国版的DreamStudio嘛”。试用了一下之后感觉功能某些方面来看居然比DreamStudio感受要好一点。

功能

中国版的网站必然是中文的。

image.png

这里和DreamStudio几乎一样,可以上传图片生成,也可以不上传图片,直接通过右边的选项+文本进行控制生成。

image.png

免费生成20还是30次,开局自带200爱币,除了默认的stable diffusion,其他的模型都需要消耗爱点。用完以后付费情况如下:

image.png

使用感受

  • 语言

    打开页面我们可以看到,页面肯定是中文的,对于一些想尝试中文图像生成但是英语困难的人来说是个福音。

    在这里我们是用文字(caption)作为提示(prompt)控制模型进行生成的,prompt这里用的是汉语,我问了一下,现在汉语是翻译过去的,所以会由于翻译偏差产生图像生成结果的偏差,这算是一个硬伤。

    image.png

    因为guidance技巧的不同,有一个方法是使用语言模型进行模型引导,他们用的模型是stable diffusion,是德国做的比较小的模型,文本prompt也没有用到muti-lingual的语言模型,像Imagen模型,语言模型用的是T5-XXL,如果我没记错的话T5就是muti-lingual,所以如果模型换成这种可以不再翻译,直接就是默认支持中文英文等多语言。

  • 框架更丰富

    DreamStudio是基于Stable Diffusion的,但是爱作画背后有好几个模型,所以从框架角度来看,爱作画甚至可以称为 “DreamStudio plus 国行版”

    image.png

生成效果

image.png

左边第一张图是生成“房间里有一只穿着黑毛衣的柯基” + 中国风标签,生成出来的算是差强人意吧。

但是剩下的几张就很拉胯,鉴于是中文翻译成英文再喂给模型做生成,所以我翻来覆去调换语序,试图让它给我生成房间里有一只穿黑毛衣的柯基和一只穿红毛衣的黑猫。第二张图直接拉胯,因为我选了右边的CG渲染标签,生成直接丢失大量文本的语义信息。

再看后两张图,不知道stable diffusion背后用的什么,因为我也没去了解这个模型原理,但是从后两张图我们以看到,生成的图是在同一个语义空间上的,“房间”、“红毛衣”、“柯基”都有了,但是“黑毛衣”和“黑猫”是没有的,并且语义信息匹配是有错的,我们是想要穿黑毛衣的柯基。可以知道模型现在是无法识别多个实体的,并且语义信息的匹配还存在一定的问题。当然这是模型本身的问题,和爱作画是无关的。

image.png

然后是第二组图,我这次试图生成湖边有个小亭子,湖里有荷花,生成顺序是从右到左的。

  • 第一张图和第三张图是仅使用文本提示生成的,默认是写实风格的,但是没荷花。

  • 第二张图是添加了中国风标签,生成了不只是中国风还是日和风的不知所云的图,可以说和文本几乎毫无关系了,所以还是前边提到的问题,标签会严重影响文本提示的语义信息

  • 最后两个图(左数一二张)湖是有了,隐隐约约好像也有莲花,用了不同画家风格的标签,效果也是一般般,并且没有亭子。第一张图还是日式庭院的图。

image.png

这组图的话是生成的要素都有了,标签也没有太大的影响。算是比较OK的一组了。

总结 :网站功能比较完善,但是模型本身的问题太大

其他思考

这个真的有前景吗?

我早晨还想着用Imagen的评价指标DrawBench尝试一下的,但是看到柯基那个图之后我就放弃了,但还是忍不住用了一下DALL·E 2的一个例子,可以看到生成的东西和语义信息相差很远,所以说完全开源的stable diffusion的缺点还是太多了,AI作画想要好好发展下去,还需要更强大模型,更强大的模型意味着更大的计算资源,普通公司只能在当前的风头上小赚一笔,想靠这个发家还是要继续寻找别的出路的。

image.png

伦理问题

当一个模型从学术界走出来应用到工业界的时候,我们最需要考虑的是伦理问题。比如GAN一出来,由于生成的图过于逼真,美国直接为此颁布两条法令:

  1. 禁止拿去生产淫秽色情的内容

  2. 禁止使用政治人物的脸去做一切不该做的事

伦理问题包含偏见问题,比如有没有什么歧视信息或者偏差信息。看下图,爱作画生成人脸过程中,加上中国风标签之后居然出来一堆日本人韩国人,这就是严重到令人发指的模型偏见!!! stable diffusion的模型消偏工作还有很长的路要走。

image.png

你既然要做AI图像生成,就要考虑偏见问题,考虑人家会拿去做黄图,考虑可能产生zz问题等等,伦理问题是AI发展的命脉问题之一。

抄袭问题

前几天有个事情在画手界闹得沸沸扬扬,一个画师直播画画,半成品被有心观众截图拿去做AI生成了。就是在半成品的基础上继续画。AI完全有能力保持原有语义风格生成图片,所以这以后可能会涉及到大量侵权行为。可能钱还没挣到就先坐上了被告席,这也是一个要考虑的点。


结语

写了一大堆,本来想夸夸网站的,网站做的却是不错,但是结果我却吐槽了半天背后的框架。一个东西好不好,重点还是要看背后的算法, 背后的模型,想走上AI发展之路,搞算法的同志们还要继续加油。