AIGC的多模态知识工程(三)

574 阅读3分钟

一: AIGC的历史发展

在前两篇的文章中,我们介绍了AIGC的早期阶段和沉淀积累阶段中AIGC的起源,以及AIGC的理论和概念。那么这篇文章我们就简单的介绍下AIGC历史上发展的第三个阶段,也就是目前所处的阶段:AIGC(生成式人工智能)阶段

1.1 chatGPT

大家都知道,chatGPT打开了AIGC生成式人工智能的第一枪,瞬间爆火全球,从chatGPT3.0到3.5再到4.0等等正式宣告了生成式人工智能(AIGC)时代的到来。在这个新时代的潮流下,企业们都不想落下,都想在这一块新生的领域内分的一块蛋糕。于是各种AI技术如雨后春笋般涌现,令人眼花缭乱,不知该如何抉择,如何选择。但说实话目前的AIGC技术都有着一定的门槛,针对的是企业或者有开发基础的开发人员,对于普通大众而言,门槛还是稍高一些,所以接下来必定会有一些公司或者企业,对其AI技术进行封装,包成亲民、利民的软件,抢占用户市场。

1.2 AIGC:万物皆可AI生成

最近很流行的一句话,万物皆可AI生成。我还记得初听这句话时,是抱着怀疑的态度的,甚至有点嗤之以鼻。但后来我利用了github上的Stab Diffusion 在自己的本地上,搭建了一个本地环境,然后利用C站上的Loar模型,以及一些基础模型,试着生成了一下,哇哦,简直不可思议,竟然真的能生成各种类型的图片!下面我就放一张我自己生成的,给大家看看:

image.png

真的太神奇了,不管是整体还是局部,都令人惊艳。精致、可控是文图生成AIGC的一大优点,用户完全可以根据自己的喜欢来微调。

1.3 AIGC分类

image.png

二: 多模态AIGC大模型驱动的具身智能

最近,谷歌5620亿参数的PaLM-E,他们将真实世界的传感器信号与文本输入相结合,建立语言和感知的链接,然后再利用可操控机器人完成任务规划和物品操作。

他们利用PaLM-E进一步验证了“智慧涌现”在多模感知和具身智能上的效果。

主要架构思想:

将连续的、可感知的观察数据 注入预先训练的语言模型的嵌入空间中,以使 其能够理解这些连续数据。这是通过将连续观 测数据编码为与语言嵌入空间中的语言标记具 有相同维度的向量序列来实现的。

这种连续信 息以类似于语言标记的方式注入语言模型中。

在机器人操作规划、视觉问答和字幕生成等任 务中进行了端到端的训练。

image.png