AI绘画效果不好?微调,是现在普通AIGC开发者最好的出路。

294 阅读3分钟

【AI最佳实践导读】大家好,我是一个拥有8年经验的全栈开发者,从我的第一份工作,到在第二家公司度过的近6年的时间,再到我决定成为一名独立开发者,每一步都充满了挑战和收获。现在,我主要从事远程项目开发,并正在研究AI领域的技术,同时也在运营自己的自媒体平台。

今天,我想和大家分享一下关于AI绘图的一些心得。我们都知道,AI绘图是一个非常有挑战性的领域,尤其是当我们希望生成的图像能够达到人类艺术家的水平时。然而,我们也知道,现有的AI绘图模型往往不能满足我们的需求,生成的图像效果往往不尽人意。

那么,有没有办法改善这种情况呢?答案是肯定的。我们可以通过微调自定义的文生图模型来改善AI绘图的效果。这种方法的基本思想是,我们可以根据我们的具体需求,对模型进行微调,使其更好地适应我们的任务。

微调,是现在普通AIGC开发者最好的出路。

在接下来的内容中,我将详细介绍如何进行这种微调 (看图)。希望这些内容能对你有所帮助,如果你有任何问题或者想要进一步了解这个主题,欢迎随时与我联系。

  1. Textual Inversion非常的轻量化,也非常的酷,它以一种易于理解的方式来为你的图像增加特定的元素或风格,不过从总体效果上来说Dreambooth还是更好一些。

  2. Dreambooth通过直接修改整个原始模型来对模型输出结果进行调校

  3. LoRA 全称Low Rank Adaption,想要理解它的原理首先非常非常概括的介绍下AI模型的内部实现。现今AI模型所使用的神经网络结构大多是由许多的计算层叠加而成的。你的输入输出首先传入第一层,经过其计算,生成一组新的数据,再作为数据传入第二层,依次计算传递,最终由最后一层给出结果。随着层数的叠加,整个模型逐渐的能够理解你所输出数据的含义并最终给出期望的结果,这就是神经网络的一个大致的描述。因此,与前面方法一样,通过训练,我们最终将训练出一整套新数据处理层的参数,而这些参数插入进原有的SD模型中,将会使输出结果与SKS产生我们所期望的关联关系,即SKS - 柯基犬图像。LoRA训练相较于Dreambooth更快且使用更少的VRAM,其数据大小相较于完整模型要小很多(150M左右)。

  4. ControlNet 作者:张吕敏,他是2021年本科毕业,目前正在斯坦福读博的中国人,为我们这位年轻同胞点赞。ControlNet 是作者提出的一个新的神经网络概念,就是通过额外的输入来控制预训练的大模型,比如 stable diffusion。这个本质其实就是端对端的训练,早在2017年就有类似的AI模型出现,只不过这一次因为加入了 SD 这样优质的大模型,让这种端对端的训练有了更好的应用空间。它很好的解决了文生图大模型的关键问题:单纯的关键词控制方式无法满足对细节精确控制的需要。 之前很火的 Style2Paints 也是这位作者制作的,除此之外他还做了一款名为 YGO PRO 2 的 Unity 纸牌游戏,这款游戏在国内外都有不少粉丝。