1970s:哈罗德·科恩教授的AARON程序
在70年代, 一位艺术家,哈罗德·科恩Harold Cohen(画家,加利福尼亚大学圣地亚哥分校的教授) 就开始打造电脑程序"AARON"进行绘画创作. 只是和当下AI绘画输出数字作品有所不同, AARON是真的去控制一个机械臂来作画的。Harold 对 AARON的改进一直持续了几十年, 直到他离世. 在80年代的时候, ARRON"掌握"了三维物体的绘制; 90年代时, AARON能够使用多种颜色进行绘画, 据称直到今天, ARRON仍然在创作。(引用来源:公众号天空之城城主)
2012年:吴恩达和Jeff Dean用1.6万CPU生成猫脸
在2012年 Google两位大名鼎鼎的AI大神,吴恩达和Jeff Dean进行了一场空前的试验,联手使用1.6万个CPU训练了一个当时世界上最大的深度学习网络,用来指导计算机画出猫脸图片。
当时他们使用了来自youtube的1000万个猫脸图片,1.6万个CPU整整训练了3天,最终得到的模型, 令人振奋的可以生成一个非常模糊的猫脸。
2014年:对抗生成网络GAN
在2014年, AI学术界提出了一个非常重要的深度学习模型, 这就是大名鼎鼎的对抗生成网络GAN (Generative Adversarial Network, GAN)
正如同其名字"对抗生成", 这个深度学习模型的核心理念是让两个内部程序 "生成器(generator)" 和"判别器(discriminator)" 互相PK平衡之后得到结果.
2015年11月:《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》论文发表
扩散模型的开山之作,奠定了扩散模型的理论基础和基本框架
2015年:Google发布Deep Dream
Google发布的一个图像工具深梦(Deep Dream).深梦发布了一系列画作,一时吸引了很多眼球。谷歌甚至为这个深梦的作品策划了一场画展,
2017年:Google基于RNN的模型
在 David Ha 与 Douglas Eck 合作的论文《A Neural Representation of SketchDrawings》中,研究者设计了一个名为[sketch-rnn」的生成式 RNN,它能够用简单的笔触描绘出日常物体,系统旨在训练机器如何像人类一样提炼事物的抽象概念。
研究者在一个手绘 sketches 数据集中进行训练,控制提笔落笔的时间及方向,进而创造一个具有可观前景的应用:不仅能帮助艺术家迸发艺术灵感,还能教授学生绘画的基本技巧。
2017年:Facebook发布CAN
2017年7月,Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方合作得到的新模型,号称创造性对抗网络(CAN,Creative Adversarial Networks)从作品集可以看出,这个创造性对抗网络CAN在尝试输出一些像是艺术家作品的图画,它们是独一无二的,而不是现存艺术作品的仿品
2019年7月:《Generative Modeling by Estimating Gradients of the DataDistribution》论文发表
这是Nips 2019的Oral论文,一作是清华、斯坦福毕业的宋飏博士。这篇工作提出了基于“score”的生成式模型,和扩散模型有着千丝万缕的联系。
2020年6月:加州伯克利大学提出了DDPM模型
如今生成扩散模型的大火,则是始于2020年所提出的DDPM(DenoisingDiffusion Probabilistic Model),虽然也用了“扩散模型”这个名字,但事实上除了采样过程的形式有一定的相似之外,DDPM与传统基于朗之万方程采样的扩散模型可以说完全不一样,这完全是一个新的起点、新的篇章。
2020年11月:《Score-Based Generative Modeling through StochasticDifferential Equations》论文发表
该论文构建了一个相当一般化的生成扩散模型理论框架,将DDPM、SDE、ODE等诸多结果联系了起来,也是扩散模型的奠基论文之一一作为宋飏博士。论文提出了一个随机微分方程通过缓慢注入噪声,将复杂的数据分布(SDE),平滑地转换为已知的先验分布,以及一个相应的反向时间SDE,通过缓慢去除声将先验分布转换回数据分布。
2021年:0penAI开源了CLIP
OpenAI团队,在2021年1月开源了新的深度学习模型 CLIP(ContrastiveLanguage-Image Pre-Training).一个当今最先进的图像分类人工智能。
CLIP训练AI同时做了两个事情,一个是自然语言理解,一个是计算机视觉分析,它被设计成一个有特定用途的能力强大的工具,那就是做通用的图像分类,CLIP可以决定图像和文字提示的对应程度,比如把猫的图像和"猫"这个词完全匹配起来
2021年6月:微软发布LoRA论文
LORA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。
比如,GPT-3有1750亿参数,为了让它能干特定领域的活儿,需要做微调,但是如果直接对GPT-3做微调,成本太高太麻烦了。
LORA的做法是,冻结预训练好的模型权重参数,然后在每个Transformer(Transforme就是GPT的那个T)块里注入可训练的层,由于不需要对模型的权重参数重新计算梯度,所以,大大减少了需要训练的计算量。
2022年3月:Disco Diffusion发布
Disco Diffusion,正是第一个基于CLIP + Diffusion 模型的实用化AI绘画产品,擅长于大场景的抽象图形。
2022年7月:MidJourney V3上线
Midjourney 自发布以来迭代速度非常快。2022 年3月 V1 发布时仍参考了很多的开源模型;4 月、7 月和 11 月分别发布了V2、V3 和 V4,迭代出了自己的模型优势。V4 补充了生物、地点等信息;增强了对细节的识别能力及多物体/多人物的场景塑造能力。总之,每次迭代都是产品功能的飞跃。
图为《太空歌剧院》。2022年8月,美国科罗拉多州举办艺术博览会,歌剧院》获得数字艺术类别冠军,此作品是游戏设计师 Jason Allen 使用Midjourney 生成。
2022年8月:Stable Diffusion上线,并开源
Stable Diffusion 于 2022 年 8月推出,以开源底层代码的形式在HuggingFace/Github 公开发布。"将 AIGC 交到数十亿人手中,实现技术民主化”,用户可以在其代码的基础上运行或修改,制作自己的应用程序,向终端用户提供服务。作为稀缺的开源模型,同时有着良好的性能,公测后就受到了广泛的关注和好评,积累了大量用户。截止 2022年10 月,stable Diffusion 已经有超过 20 万开发者下载和获得授权,各渠道累计日活用户超过 1000 万。团队开发的付费在线平台 DreamStudio 目前获得了超过150 万用户,生成超过1.7亿图片。
2023年2月:发布ControINet(斯坦福张吕敏)
可控生成模式的出现,意味着AIGC走入了直立行走的时代。个人体会:对于生成式模型,可控性一直是被人最为诟病的大问题之一。历史的方案更多是使用大力出奇迹的方式,不断的尝试prompt的线性组合+大批量生产图片,给足了使用者空间的同时,也带来了大量的不足之处。但是controlNet的出现意味着ai创作进入了直立行走的时代:
2023年4月:Meta 发布图像分割 Segment Anything
1.正如名字"Segment Anything”一样,该模型可以用于分割图像中的一切对象,包括训练数据中没有的内容;
2.交互方面,SAM可使用点击、框选、文字等各种输入提示(prompt),指定要在图像中分割的内容,这也意味着,用于自然语言处理的Prompt模式也开始被应用在计算机视觉领域。
3.对于视频中物体,SAM也能准确识别并快速标记物品的种类、名字、大小并自动用ID为这些物品进行记录和分类。
2023年6月:DragGAN开源
DragGAN 是一款基于生成对抗网络(GANS)技术的图片编辑项目。追根溯源其实还是 NVIDIA 的 StyeGAN 的衍生项目。
DragGAN 由两个主要部分组成:第一部分是基于特征的运动监督,通过控制起始点向目标点运动,实现图像的变形;第二部分是新的点跟踪方法,即最近邻检索,通过在相同的特征空间上进行点跟踪,提高了效率,并避免了累计误差损失。
简单来说,它能够让你轻松掌控图片中的人物和动物,通过拖拽控制点和目标点来调整他们的位置、形状、姿势等等。
2023年6月:DragDiffusion论文发布
精确和可控的图像编辑是一项具有挑战性的任务,已经引起了极大的关注。最近,DragGAN实现了一个基于点的交互式图像编辑框架,并以像素级的精度实现了令人印象深刻的编辑结果。然而,由于该方法是基于生成对抗网络(GAN),其通用性受到预先训练好的GAN模型能力的上限限制。在这项工作中,我们将这样一个编辑框架扩展到扩散模型,并提出DragDiffusion。通过利用大规模预训练的扩散模型,我们大大改善了基于点的交互式编辑在现实世界场景中的适用性。虽然大多数现有的基于扩散的图像编辑方法是在文本嵌入的基础上工作的,但DraqDiffusion优化了扩散潜势,以实现精确的空间控制。虽然扩散模型以迭代的方式生成图像,但我们的经验表明,在一个单一步骤中优化扩散潜势就足以产生连贯的结果,使DraqDiffusion能够有效地完成高质量的编辑。在各种具有挑战性的情况下(如多物体、不同的物体类别、各种风格等)进行的广泛实验证明了DragDiffusion的多功能性和通用性。
2023年9月:DALL·E 3发布
DALL·E3是 OpenAI 在 2023 年9月份发布的一个文生图模型。与上一代模型 DALL·E2 最大的区别在于,它可以利用 ChatGPT 生成提示(prompt)然后让模型根据该提示生成图像。对于不擅长编写提示的普通人来说,这一改进大大提高了 DALL·E3 的使用效率。
此外,与 DALL·E2相比,DALL·E3生成的图质量也更高
延伸观看:从Sora展开,全面解读AI视频大模型发展史
视频作者:硅谷 101,Sora好在哪里?GAN、VAE、扩散模型、LLM技术生成AI视频的优劣势都是什么?0penAI的视频模型一定是正确的路线吗?这期视频通过与硅谷一线AI从业者的采访,深度聊聊生成式AI视频大模型的不同派系发展史,相关争议和未来发展路线。
延伸观看:stable Diffusion 一周年生态全盘点
从入门到放弃?ComfyUI系统性教程原理篇012023年8月,风,靡全球的现象级模型Stable Diffusion迎来一周年!本系列以此为契机,围绕SD及其背后的扩散模型(Difusion Model),展开了从基础原理与发展、模型与生态、GUI盘点与使用的系统性梳理!
space.bilibili.com/484366804/c…
延伸观看:目前最完整的AI绘画发展历程,看完可以水一篇综述
人工智能领域的多个方向,包括自然语言处理、AI语音、计算机视觉等,以及AI绘画的发展历程。同时,还介绍了GPU在深度学习中的应用。
若有收获,就点个赞吧