深度 | 邱锡鹏:从大语言模型到世界模型

160 阅读51分钟

本文由叮当好记(readlecture.cn)转录总结。叮当好记专注于音、视频图文转录、总结和翻译。视频PPT和讲话稿提取、讲座学习、课程复习、外语课程翻译、会议总结、播客总结、个人知识库构建、文字资料整理就用叮当好记

更多讲座、采访干货内容,欢迎关注公众号“ReadLecture内容精选”获取!

视频来源

bilibili: www.bilibili.com/video/BV1AJ…

大纲

思维导图由叮当好记(readlecture.cn) 总结

Image

总结

一句话总结

  • 邱锡鹏教授探讨了从大语言模型到世界模型的演进过程,强调语言在构建通用人工智能(AGI)中的核心作用,并提出了多模态模型的发展方向。

结论

  1. 语言是人类智能的压缩表示:语言不仅是交流工具,更是人类对世界认知的压缩表示,是构建大模型的基础。
  2. 大模型通过语言理解世界:大模型通过语言学习人类知识,但目前仍依赖于模仿学习,尚未创造新知识。
  3. 世界模型的核心是预测与决策:世界模型通过预测环境变化来指导智能体的决策,类似于强化学习中的环境模型。
  4. 多模态模型是未来趋势:未来的大模型将融合文本、图像、语音、视频等多种模态,形成更强大的世界模型。
  5. 离散化是多模态融合的关键:通过将连续信号(如语音、图像)离散化为符号序列,可以利用大语言模型的训练方法进行多模态生成。
  6. 具身智能需要世界模型:具身智能通过与环境的交互获取知识,世界模型为其提供了虚拟环境进行训练。
  7. 世界模型的挑战在于物理规律的理解:当前模型在处理物理规律时仍存在不足,未来需要通过语言和多模态融合来提升。

深度问答

  1. 为什么大模型从语言模型开始,而不是视觉模型?
    • 语言是人类智能的压缩表示,语言模型更容易从大量数据中提取规律,而视觉模型尚未达到类似的高度。
  2. 大模型如何通过语言理解世界?
    • 大模型通过学习人类总结的语言知识,模仿学习人类对世界的理解,但尚未创造新知识。
  3. 什么是世界模型?
    • 世界模型是一个能够模拟环境变化并指导智能体决策的模型,类似于强化学习中的环境模型。
  4. 多模态模型如何实现?
    • 通过将语音、图像等连续信号离散化为符号序列,利用大语言模型的训练方法进行多模态生成。
  5. 世界模型的挑战是什么?
    • 世界模型在处理物理规律、长文本、复杂推理等方面仍存在不足,未来需要通过多模态融合和语言模型的进一步发展来解决。

关键词标签

  • 大语言模型
  • 世界模型
  • 多模态模型
  • 具身智能
  • 离散化

目标受众

  1. 人工智能研究人员:对大模型和世界模型的研究感兴趣,尤其是多模态融合和具身智能。
  2. 自然语言处理从业者:关注语言模型在多模态场景中的应用和发展。
  3. 强化学习研究者:对世界模型的定义和应用感兴趣,尤其是其在智能体决策中的作用。
  4. 机器人和自动驾驶从业者:关注世界模型在虚拟环境中的训练和应用。
  5. 通用人工智能(AGI)研究者:对语言在AGI中的核心作用及其未来发展方向感兴趣。

术语解释

  1. 大语言模型:基于大规模数据训练的语言模型,如GPT系列,能够生成和理解自然语言。
  2. 世界模型:能够模拟环境变化并指导智能体决策的模型,类似于强化学习中的环境模型。
  3. 多模态模型:能够处理和生成多种模态(如文本、图像、语音、视频)的模型。
  4. 具身智能:通过与环境的交互获取知识的智能体,通常应用于机器人和自动驾驶领域。
  5. 离散化:将连续信号(如语音、图像)转化为离散符号序列的过程,便于利用大语言模型的训练方法。

内容回顾

Image

今天的“人工智能前沿讲座”正式开始。今天我们邀请到的是邱锡鹏教授,他将与我们分享从大语言模型到世界模型的内容。

首先,我简单介绍一下。正如课程一开始所提到的,我们邀请到的都是业界和学术界一线从事具有重要影响力的老师和学者,或者是从业者。邱锡鹏老师是复旦大学计算机学院的教授,也是中国人工智能学会的会员,上海市计算机学会自然语言处理专委会的主任。 同时,他还是中国高被引学者和全球前2%顶尖科学家榜单中的研究者。他曾在ACM等组织中获得多项科技奖项。

邱老师比较著名的研究是在ICLR之后不久,在国内较早推出了国内的大模型MOS,并在此基础上进行了一系列将语言大模型扩展到语音,乃至多模态大模型的研究。因此,邱老师一直是国内走在前沿的学者之一。 今天我们邀请他来,是为了分享他对大语言模型未来的看法。

同时,邱老师也是国家人工智能研究院的老师,他将分享对国家人工智能研究院在重大项目发展过程中的一些看法。

Image

那我们就有请邱老师为我们分享。好,谢谢余老师的邀请。今天非常荣幸能给大家讲解我这边的主要研究方向和思考,即从大语言模型到世界模型

自从GPT出现后,大家对大模型领域非常关注。相信大家对其背后的原理也有所了解,比如预测下一个词等。目前在大模型研究领域,大家不仅关心其未来发展,还关注有哪些值得研究的问题。

今天我将分享一些可能偏思想层面的内容,希望能给大家带来一些启发。

Image

首先,我想讨论一个非常关键的问题,即为什么大模型是从大语言模型开始的,而不是从大视觉模型开始。事实上,之前已经有许多重要的研究指出,我们是从模型的语言视角出发的。 如果采用类似于之前的多模态或多模态的方法,能够学习一个非常大的目标。但到目前为止,还没有出现非常大的纯视频问题。当然,有一些像Sora这样的视频生成模型,但它们其实也离不开大语言模型的支持。现在没有一个纯视频问题,很多所谓的视频问题都是有语言的参与的。

还有一个就是多模态问题,这个问题非常宽泛。所以核心问题是,为什么是语言?这里面涉及到几个概念,一个是语言到底是什么?很多时候大家认为它是一个交流工具。但其实除了交流之外,语言更多的是一种表示,是我们人对这个世界认知在我们人脑中的一种表示。之前维特根斯坦说过一句话,

Image

就是我语言的边界,就是我世界的边界。 如果我们有一个知识无法用语言描述出来,那么它也很难形成公认的知识,无法流传。人类智能的产生与语言有非常大的关系。语言的本质是什么? 我们可以总结为:语言是人类智能对世界的压缩。这里的语言不是指ABCD或中文的几个汉字,而是以语言为载体的人类知识的表达。互联网上大量的知识都是以语言的方式呈现的。

在人工智能领域,有一个广泛认可的说法,即压缩的智能。如果我们能够从大量数据中找到最本质的规律,那么我们就认为它非常智能。例如,能否给出一个模型,让它在世界上观察并找到世界的本质规律,这是一个非常难的问题,但也是AI追求的终极目标。如果我们有一个模型能够找到大量数据背后的规律,那么我们就找到了一种压缩比非常高的方式,就像算术运算一样。

现在的模型还比较简单,需要大量的数据进行训练。而像GPT这样的模型,能力非常强,可以解决很多问题,但在某些运算上,它比人类想象的要笨很多。这与其内部机制和学习方式有关。人类是先学习规则再应用,而模型是先输入数据,然后让模型自己找到规则。为什么人类学习起来这么容易? 因为人类已经总结了这些规则并传授给他人。

Image

大模型要想理解世界并构建丰富的世界知识,就必须通过语言来实现。 如果离开语言,让它自行总结世界规律,将是非常具有挑战性的。另外,语言还有一个非常好的特点,因为人类经过这么多年的发展,积累了大量的知识。当然,这些知识中也可能存在错误,但总体上,我们可以建立在人类最高知识总和的基础上,构建这样的模型。因此,如果我们现在要构建一个非常通用的、朝着AGI方向发展的大模型,就必须找到语言作为中介。

首先,第一步是由人来完成的,也就是我们人类对世界的理解,通过语言的方式总结下来。我们的语言是非常压缩的,例如,“苹果”这个符号只有两个字,但它背后包含了非常多的信息,如它是一种水果,它的形状、颜色等都隐含在这两个字符中。因此,我们的符号是高度压缩的。接下来,通过模仿学习,我们将这种知识迁移到大模型中,完成这一步后,模型就具备了人类的知识。

然而,大家有没有思考过,模型其实并没有创造新的知识,它只是知识的迁移。过去有人套用广告语说,大模型是知识的搬运工,它不产生知识。但即便如此,它已经足够强大了,如果它能够很好地运用人类现有的认知和知识,它已经可以展示出非常多的能力。并且,在大模型中,语言不仅仅是纯粹的自然语言,还包括其他语言,比如编程语言,编程语言中也蕴含着大量的知识,这些都是非常重要的。因此,我们可以通过这些模型生成语言,再通过语言进一步与世界交互,这就完成了一个闭环,使得模型可以与世界交互。

当然,我们追求AGI的目标不仅仅如此,还包括像OPI定义的AGI的几个发展阶段,比如通用性、推理能力、协作能力,甚至成为一个组织者。你会发现,对AI能力的要求会越来越高。我们希望模型最终能够绕过人类,比如不再依赖语言,而是能够自己观察世界,理解世界的规律等。当然,这是我们希望AGI实现的一些目标。

在这个过程中,如果我们从事大模型研究,我们可以从图中找到许多研究点。比如,模仿学习是否存在高效的模仿学习方法?模仿学习会产生许多问题,比如幻觉等,这些都是这种学习方式带来的。我们现在有一种改进方法,即对齐(alignment)或超级对齐,希望除了模仿学习之外,我们是否还可以通过加入人类的反馈来提升模型的能力。此外,在生成过程中,也可以加入各种生成机制的保障,以及如何更好地使用工具,这些都是大模型研究的热点。

然而,大模型本身还存在许多内生问题,这些问题是当前模型无法解决的。因此,我们需要一个更强大的模型来解决这些问题。比如,当前的模型是单向的,去年有一篇非常有名的工作提到,如果模型学到了“汤姆·克鲁斯的母亲是谁”,它可以通过下一次学习来回答这个问题。但如果反过来问“汤姆·克鲁斯的母亲的儿子是谁”,模型就无法回答了。这说明模型存储知识的方式与我们人类的方式不同。解决这些问题也有很多方法,但某种程度上,这种单向的生成下一个词的形式与我们人类的学习方式不太一样,因此还有很多改进的空间。

此外,大模型还有其他缺点,比如无法处理非常长的文本,无法具备太多的个性化信息,以及在处理复杂的多步推理时表现不佳,这些都是目前大模型难以解决的问题。那么,人类如何学习呢?其实,人类的学习不仅依赖于背诵,还通过与世界的交互来获取知识。我们希望将大模型扩展到下一步,使其能够更好地与世界交互,从而获取更多的知识。

Image

所谓的World Model,即世界模型,其定义其实很早就已经存在,最早可以追溯到强化学习。 这里的World指的是我们刚才提到的世界和环境,对于一个智能体而言,它的外部环境都可以被称为World。我们人类在自己的大脑中也会构建一个所谓的世界模型,用于对环境的建模。如果要给世界模型下一个定义,就像这张图片所示,

Image

在我们骑车时,每当做出下一个动作,我们会思考World Model的环境会发生怎样的变化。在我们的脑海中,会有预测:每做一个动作,会使我们周围的环境发生怎样的变化。这样,世界模型可以反过来指导我们做出更好的决策。

目前,这种大模型并不具备这种能力。大模型是一种前向的自回归式单向推理,它没有外部指导来帮助它做出决策。现在,像O1O1这样的模型提出了一个概念,即过程监督。在美国,它有一个外部的reward model来指导并给它打分,判断其决策是否正确,从而使其能够做出更好的决策,找到更好的推理路径。这里的reward model就充当了一个世界模型。当然,它给出的信号比较简单,只是一个奖励。一个更完善的世界模型不仅能给出奖励,还能预测未来世界会发生怎样的变化。

这个概念最早是在2018年被Jobel形式化定义的。Jobel是STO的提出者,他的许多概念都比较超前,他提出了World Model的概念,它有几个重要的组成部分。第一个是视觉模型。我们通常所说的World Model大多是视觉感知的,所以它有一个视觉模型。还有一个memory,可以由RNN或transformer替代。这些都是一些基本的组件。还有一个controller,它能够接收历史的世界状态和动作,来预测未来的世界状态。基本上,这些模块构成了World Model。有了视觉模型,我们就可以指导一个agent做出更好的推理,或者指导它进行更好的学习。

Image

然后还有一个视觉模型的定义。 Yann LeCun在推特上给出了一个定义。视觉模型的定义因人而异,不同背景的人对视觉模型的认知也不同。例如,从事强化学习的人可能会认为视觉模型是用于记忆学习或大模型的,甚至做机器人或自动驾驶的人也可能有不同的理解。

简单来说,世界模型可以被理解为一个能够模拟世界规律并运行的模型。 Yann LeCun给出的定义包括一些基础性的内容,比如观察到的外界输入XT,上一个时刻的世界状态ST,以及动作AT。如果大家学习过强化学习,这些概念并不陌生。此外,还有一个proposal的变量。我们希望给出一个世界模型,首先对XT进行编码,然后基于HT、ST、ZT和AT来预测下一个世界状态ST+1。这个定义基本上是这样的。

如何预测呢? 从表面上看,这是一个自回归式的生成模型,类似于现在的大语言模型。如果你要学习一个世界模型,你可以采用类似于大语言模型的自回归方式,通过不断预测下一个世界状态来训练模型。大家可能对世界模型还没有一个具体的概念,我给大家展示一下什么是世界模型。

现在,世界模型的训练需要收集大量数据,但实际上我们很难收集到这样的数据。 因此,现在的世界模型大多在游戏中进行训练,因为游戏环境也是一个虚拟的世界。如果我们能够对游戏环境进行非常好的建模,那么将其应用到现实世界中,道理是相似的。当然,现实世界可能更加复杂。

这个建立的模型是几年前DeepMind发布的一个工作,它是一个模拟器。 现在的游戏引擎背后有很多计算和建模,我们把场景建模成一个3D场景,然后通过驱动一些按键来驱动一个人在里面不断探索。我们现在希望用神经网络构建这样一个世界,它也支持Action,即基于当前状态和键盘输入来预测下一帧应该是什么。大家可以想象,这是一个由神经网络构建的游戏引擎,这就是世界模型。

它与强化学习中的Agent有什么关系呢?

Image

关于Agent,假设我拥有一个世界,那么我就可以训练一个非常优秀的Agent,让它在这个训练世界中完成许多任务。 这就是世界模型的概念。当然,我们还训练了非常多的游戏场景,效果似乎非常好,感兴趣的话可以关注一下。

Image

在有了一个具象的概念之后,我们可以进一步介绍,到目前为止已经有很多世界模型实例。例如,乐坤体的JEPA,虽然较为复杂,但其核心是通过神经网络对现有世界状态进行建模。

Image

Jepha并不是一个非常主流的模型。 主流模型通常是根据乐坤的定义,即具身智能,包括一些动作和预测下一个世界状态的能力,还有一些违规行为等。这种具身智能可以通过不断训练来实现,这也是一个实例,称为Language-Guided World Models

Image

还有一些也非常简单的。 比如说,我们将一个虚拟环境或世界的状态进行编码,然后将编码后的数据用于世界模型的训练。我们还有一个非常有名的项目,就是OpenAI的Sora,Sora也是一个世界模型。虽然它可能没有动作,但它的动作可能就是一开始的Problem,让你生成一个视频,展示一个世界。

Sora在当时非常轰动,因为它可以生成长达一分钟的视频,并且效果非常好。 OpenAI为什么要训练Sora?其实一个很大的初衷可能是他们想训练一个类似世界模型的东西。表面上,他们更多的是希望还原这个世界,这样我们就可以在虚拟世界中训练出更好的Agent,包括它。

Image

他放了那个GPT-4o,对吧?这也是一个多模态模型,当然视频生成还不太一样。它也是让我们的世界变得多模态,不只是图像。所以包括声音、各种交互,甚至人某种程度上都可以被认为是世界模型的一部分。

与此相关的是什么呢?就是具身智能,我们可能也有一些模型。这些模型比如像Google的PaLM,还有包括像现在最先进的,比如像GPT-4o等等,这些由大语言模型驱动的机器人。本质上,它们和世界模型有点像,就是它们通过学习机器人来观察这个世界。只不过它们的输出是Action,它们输出要学习一个Policy模型,即学习到一个角色模型,输出是Action,而世界模型的Action是输入输出是State,这是它们不一样的地方。

但它们两个可以共同组成一个有乔学习的两个非常重要的组件,然后这样就可以去迭代学习,有点像我们现在的自动驾驶。在自动驾驶里面,比如开车,收集非常多数据。然后我们现在把这些数据不是直接拿来训练模型,而是先去训练一个仿真器。然后在仿真器里面去训练我们的自动驾驶决策模型。

Image

这是一个非常大的闭环。因此,具身智能同时也需要世界模型。因为具身智能收集数据的程度非常高,所以我们需要让它在虚拟环境中执行这些任务。

Image

最近也有很多工作,比如VLAR模型,它们也在做类似的事情。 这些模型首先是多模态的,无论是世界模型还是大语言模型,它们都支持图像、视觉或视频等视觉模型。同时,语言和动作这几种模态的表示也都要具备。

Image

因此,这其中有许多相通之处。还包括一个非常知名的开源项目,名为OpenVLA,即Vision-Language-Action Model。当然,这些模型通常也不是从头开始训练的,而是基于现有的多模态模型进行训练的。

Image

所以,如果我们想要推动大语言模型的发展,趋势已经非常明显。 首先,第一步是多模态,即大模态文本的多模态处理。接下来是具身智能加上世界模型,这样就能形成一个闭环。

然而,这对大语言模型本身有一些要求,例如它需要更多的感知信息输入。因此,如何进行不同信息的融合变得非常困难。此外,它的架构也可能发生了一些变化,因为它需要记录非常长的上下文信息。因此,可能需要增加一些存储组件,并且它需要能够进行动作推理,或者学习一个角色模型,或者支持动作输入,并与环境进行交互。

刚才提到的很多世界模型都是类似的做法,例如选择类似于Transformer的架构。但正如我们的题目所示,从大语言模型到世界模型,我们的世界模型也是同样的道理,和我们一开始提到的那个问题类似。如果离开了语言,你很难单独构建一个世界模型。 因为这个世界太复杂了,如果我们想要构建一个世界模型,最好的方式还是基于语言模型的技术。

Image

这就是我今天想强调的一个内容,即我们现在的大语言模型,它其实已经是一个非常好的世界模型了。 比如说在GPT中,虽然是符号空间,它没有见过我们的物理世界,但它对外部世界的认知其实是建立得非常好的。

这里也有一个例子,就是当GPT-4刚发布时,微软的许多数学家对GPT-4非常兴奋,他们合写了一篇论文,名为《SparksofAGI》。他们认为AGI的时代已经近在眼前。论文中举了一个例子,比如给出一本书、九个鸡蛋等不同物体,让你用稳定的方式堆叠在一起。他们发现GPT-4能给出一个非常好的答案,比如首先把书放在地板上,然后再如何堆叠起来。这表明GPT-4对真实物理世界中的很多概念有非常好的了解。

此外,他们还有其他证据,比如GPT-4没有见过图像,但如果你让它画一个动物的图像,它也能画得出来。它的画法是先写一个程序,再用程序运行画出来。这反映出它对很多物体的概念或形状是有了解的。

因此,如果我们真的要建立一个世界模拟器,如果不利用GPT中的知识,某种程度上也是一种浪费。 它已经建立好了,我们没有必要再从数据中用纯数据驱动的方法让模型自己去找到这些规律。

Image

还有一个是今年在ACL上刚好有一篇文章探讨了这个问题,即大语言模型是否是世界模拟器。 当然,他们做的实验比较简单,首先虚构了一个文字版的虚拟世界,定义好世界的规则,然后让这个世界加上一些动作去演化。接着,我们观察大模型能否预测下一个世界的状态或如何变化。实验发现,这里面其实有很多难点。但总体上,GPT-4在模拟这个虚拟的文字世界时,能够达到60%的准确率。

这个文字世界类似于给定了很多规则,描述了世界的样子和运行规则,再加上一些动作,让你去预测整个世界状态。如果大家之前玩过文字版的模型游戏,应该会有概念,就是输入一些指令。这个实验都是用文字版本来做的。对于这个非常简单的世界,GPT-4的表现其实很不错。我认为60%的准确率已经相当不错了,因为这个问题本身非常难,预测状态的空间非常大。如果再加上一些微调或训练,我觉得达到非常高的准确率是没有问题的。

所以我们就在想,去年我们做大模型之后,接下来我们在学校里也在思考大模型未来的发展。 因此,我们在规划下一代模型时,一方面我们在浦江那边有一个团队在做生物领域的大模型,另一方面我们在学校里也在思考大模型未来的发展方向。

Image

我们一直在思考如何实现这些目标。但我们最终希望将大模型演化为世界模型。当然,这不仅仅涉及数据的处理和定义,还包括架构上的变化。刚才提到的还有更好的数据来源,比如世界模型的数据从何而来?此外,还需要考虑对齐和可解释性,包括工具、多模态和智能体等方面的工作。

技术架构是一个多模态架构,对吧?我们的世界模型必须是多模态的,这样才能真正感知外部世界。因此,我们要做的第一步是如何构建一个多模态模型。这就是今天我要讲的主要内容——构建一个多模态模型。

其他内容今天就不多涉及了,当然它们也非常重要,包括高效架构等。如果大家有兴趣,可以通过每个方面添加一些关键图来收集相关研究工作。

Image

我们希望进行多模态研究。回顾当前的多模态工作,你会发现它们支持我们的世界模型。为什么呢? 因为现在主流的多模态架构,比如PaLM-E,它在一个原模型的基础上增加了一个图像编码器(Image Encoder)。这个图像首先经过一个像ViT这样的编码器,然后投影到视觉token上,再与语言指令(Language Instruction)拼接,送入原模型中,从而产生文字输出。

多模态模型也类似,比如视频模型,它有一个视频编码器,将视频投影到视频token上,音频则直接送入大模型,大模型可以产生回复。刚才提到的PaLM-E也增加了动作模态,将其视为一种模态。因此,加上动作后,它也是一个多模态模型,称为VizorambleAction,这是一个三模态模型,动作也是一种模态,虽然不需要单独建模,但它与其他模态相比有些特殊。

这些模型的一个特点是它们没有动作模态的生成能力,只能理解动作模态,不能生成动作模态,这与我们的世界模型不同。我们的世界模型要求不仅能理解动作模态,还能生成动作模态。 我们能够在脑海中想象世界的变化,预测下一个世界的变化,因此它应该具备生成能力。

此外,这些模型的搭配比较死板。比如PaLM-E必须将视觉部分放在最前面,如果交互一次后产生新的视觉信息,它就无法处理。因此,这种架构非常不灵活。我们希望能够提出一个更灵活的多模态架构。

Image

我们希望在MOSS上进一步扩展其能力,这是我们的规划。 当然,这是一个很大的工程,到目前为止我们还没有做得非常好。我们希望以语言模型为中心,实现任意模态的组合输入和输出。 它可以是任意模态的组合,例如音频、图像、视频和文本,可以按任意顺序组合输入和输出。

大家想想这个事情还是挺困难的,如何设计这种架构?特别是如果大家对文生图比较了解的话,会发现文生图领域最主流的模型是diffusion,它与我们现在的语言模型体系很兼容,包括现在做语音的很多也是用diffusion。那么我们如何将这些技术融入到语言模型中,扩展出多模态的能力呢?

Image

这里涉及到模型的架构,即模态之间的差异。 例如,语音、图像和视频都是连续的,包括脑电信号也是连续的,而文字是离散的,这是它们之间的一个显著区别。

目前主流的方式是,文字也需要进行embedding处理,将其送入神经网络的前一步,并将其连续化到语音空间中进行计算。因为现在的模态融合基本上是在影空间中进行,这样做的好处是,所有模态都变成了影空间中的语音计算,通过矩阵加减乘除来进行,融合相对更简单。 然而,这也会导致我刚才提到的问题,即模态的混合或任意组合会更加困难。

如果我们希望利用多模态的能力,并将其输入到我们现在的大语言模型中,进行多模态生成,其实有一个相反的做法,就是将连续信号离散化。也就是说,如果我们把一部影像变成一个离散的符号序列,我们就可以用训练大语言模型的方法来训练一个类似的东西,通过预测下一个词的形式来进行预测。 为了实现这一点,我们首先从语音开始。

Image

因为我们认为语音是最接近语言的,所以我们先从语音开始。 语音是左边这一团连续的信号,我们希望将其离散化为一些词符。这些词符具体的意思是什么?我们不知道,但我们希望将其离散化。

那么离散化怎么做呢?我们第一次做的时候非常简单,就使用现成的工具。在语音领域有个非常有名的工具叫 hobot,它是一个语音编码器。我们通过这个工具处理语音信号,得到一些中间的语音表示。然后我们在这个表示中进行聚类,取出类中心,这就是对应的词符,从而实现了语音的离散化。

所以离散化本身就是一个从连续到离散的量化过程,这一步相对简单。 经过离散化后,一段连续的语音在经过这个操作后,就变成了一个离散的符号序列。有没有发现它就像一种语言?它就像我们的英文、中文、法文等,现在又多了一种“声音文”。当然我们不知道它的意思,但我们可以把语音看作是一种未见过的新语言。

为什么我们认为这种方法是可行的? 源于我们在一开始做大模型训练时的经验。我们发现,即使没有见过强对齐的中英文数据,大模型也能通过一些弱对齐的数据,将不同的语音关联起来,并且融合得非常好。因此,我们想到,如果把语音也看作是一种新语言,并且有一些弱对齐的数据,那么在某种训练中,它也能够知道这段语音代表的是什么,对应的是什么文字,从而打通它们之间的表示。于是,我们就开始做这个工作。

Image

在后续的研究过程中,我们发现这种离散化方法并不理想。由于HuBERT本身的训练效果不佳,我们自行训练了一个语音离散化工具,名为SpeechTokenizer,它采用VQ-VAE的形式进行处理。这种方法能够有效减少离散化带来的信息损失,并且是多步离散化。例如,第一步离散化后,减少信息丢失,再进行第二步离散化。总共进行八步离散化,这样基本上能够还原出非常精细的原始信号,重构效果非常好。

同时,第一步我们希望保留更多的语音信息,因此使用VQ-VAE进行语音增强,这样第一层更偏向于语音的token和文本的token。这样处理后,语音的表现能力会非常出色。

Image

这就是我们的整个架构。 首先,有一个语音的 Unit Tokenizer。基于现有的 GPT 模型,例如大语言模型,继续训练。训练完成后,生成 SpeechGPT,再使用我们刚才提到的 SpeechDe-Tokenizer 解码器 将其还原。这样就可以让大语言模型具备内生的语音能力。

这里不再需要 ASR 和 TTS,因此对语音理解的效果会更好。它不仅能理解语音,还能编码情绪、说话的节奏和音色等信息,让大语言模型感知到这些内容。

Image

从而可以产生更好的回复。 我们这里有一个demo,大家可以看一下,这是没有经过TTS的,也就是没有经过ASR的TTS。所以直接有语音输出。但是,由于时间关系,我就不播放整个语音了。它可以模仿不同的场景,并生成相应的对话。

Image

这样的话,它的应用场景会很多。 我们在语音方面,去年五月份就已经完成了相关工作。我们认为语音是一个非常好的验证我们想法的方式。验证完成后,我们希望将其扩展到更多模态上。

这就是我们后续做的工作,称为NGT,也就是将所有模态都token化。当然,由于我们不做视觉、图像编码或视频编码,所以我们使用了市面上开源的理散化视觉、视频或音乐编码器,这些编码器支持理散化。我们将它们整合到我们的框架中。

例如,如果是语音,我们就通过语音tokenizer将其转换为token;如果是文本,它本身就是token;如果是音乐,我们就通过音乐tokenizer将其转换为音乐token。这样,所有模态都被token化,每个模态都相当于一种新的语言。

我们的多模态模型可以被视为一个多语言模型,支持任意模态的组合。 你可以任意调整输入顺序,这对我们的模型没有影响。因为中间层是transformer,不像其他模型需要专门设计哪些token可以相互看到。对于我们这种理散化的方式,你可以进行任意模态的组合,如语音加文本,或加图像等,输入到任意模态组合的输出。

Image

它基本上就是这样一个概念。 然后,中间是一个字符归一化的过程。比如说,我们举个例子,给定一幅图像生成一段音乐。我们分别进行token化之后,将其送入大模型。大模型首先生成一段音乐的token,经过token化变成音乐,然后生成文本,再生成一段语音,经过语音的token化,最终输出。

这就是我们构建的一个统一的多模态架构的大模型。 其核心是利用序列编码的方法。这里也有一个关键点。

Image

大家可以看见,可能声音较低,这里的图像或音乐是由模型自身生成的,无需调用外部工具。我们刚才已经介绍过,

Image

我们的两个单点式工作,一个是SweetGBT,一个是IGBT。我们为什么没有将它们纳入MOSS系列?因为它们与我们最终希望实现的多模态世界模型不同。我们希望的世界模型是对世界的建模,而这两个模型只是验证了多模态输入到输出的可行性。因此,我们没有将它们纳入主线,而是作为两个单点式工作。我们最终希望将它们整合到MOSS工具中,但这个工作量非常大,目前仍在进行中。

今年,Manta和欧宏宏发布了他们的端到端模型,包括Chamberlou和Forel,他们大致上也采用了这种多模态输入到输出的模型,不再需要额外的ASR或TDS。这种端到端的模型可能是未来多模态模型的一种主要模式。如果大家对这个方案感兴趣,也可以尝试。

此外,Manta还致力于可解释性,我们希望所有的东西都是可解释的。刚才提到的国资院,我现在在国资院立了一个大项目,即创制学院的GP4O项目。我们希望能够开发一个能够对标GPT-4的开源模型。目前市面上有很多号称达到GPT-4水平的模型,但它们都不是端到端的多模态模型。有些可能主打拍照生成描述,但它们仍然是传统的架构,如Lava架构,而不是端到端的多模态输入到输出的模型。因此,它们与GPT-4的架构还是有很大不同的。

最后,我再介绍一下我们的另一个单点式工作。

Image

因为我们讨论的世界模型其实有一个非常大的应用,就是用于具身智能。 所以这里面涉及非常多的模型。然而,目前的具身模型有一个非常大的问题,就是它虽然是一个多模态模型,但目前的训练数据规模非常小,不足以支撑训练一个非常好的多模态模型。因此,我们现在对于理解BLA的话,

Image

有一些非常不同的策略。有些BLA相当于直接使用训练模型来生成控制,即action。还有一些BLA,类似于我们所说的制度论模型,它将外部环境、Vision和Living输入进去,然后输出action。这是两种不同的方式。但我们希望训练一个更大的模型,使用更多的数据来同时建议这三种模型的VIA

Image

为了实现这一目标,我们需要对场景或任务进行详细的梳理。例如,当前有许多机器人执行的操作任务,如将瓶子从左边移动到右边等。然而,我们认为这些任务过于简单,无法反映出文本中已经隐含的丰富知识。

我们希望模型在决策时能够利用世界知识,例如看到一瓶水未喝完时,能够预估其重量,并进行多维度的推理。此外,还包括布置餐桌等任务的规划,以及对现实世界空间关系的理解。

我们希望模型能够具备这些能力。

Image

目前我们有许多仿真数据集和相关资源。

Image

它其实不满足我们上面的要求。因此,我们做了一个初步的工作,即构建了一个VLA Bench,其中包含了许多VLA任务。

这就是我们自己订阅的内容。 当然,我们之所以从仿真数据开始,也是因为现实世界中收集这些数据非常困难。因此,我们希望能够在仿真环境中完成这些任务。

最终,我们希望能够实现的目标,就像我们一开始展示的JLA2一样,是希望神经网络能够构建这些仿真环境。 但这件事非常困难,不仅需要大量的人力,还需要大量的算力和初始数据来进行训练。这里涉及的任务非常复杂。

Image

我们大约有100多个任务。每个任务不仅涉及简单的抓取或移动,还包含大量的规划工作。

Image

对,

Image

比如说,如果我们需要进行大量后续研究,无论是关于世界模型还是大规模学习,

Image

为他们的后续工作做一些准备。我们的这些benchmarks可以生成大量的潜在训练数据。我们搭建的是模拟器,通过调整一些参数,就可以生成许多不同的数据。

Image

最终,我还是以这样一张图作为结尾。我们希望能够从各个方向进行改进,最终将一个大语言模型演化为一个世界模型。我的报告就到这里,谢谢。

非常感谢周老师的综合报告,从元模型走向世界模型。接下来我们进入提问环节。特别提到的是,世界模型最终需要具备的能力,尤其是对物理规律的处理方式

Image

然后我其实在刚开始提出时,曾标榜自己是一个博尔西亚人。现在我的质疑是,它很多视频实际上并不符合自然规律,本质上还是一种对成绩的解读,而不是对自然规律的理解,这还是缺乏的。我想问的问题是,

Image

如果未来我们构建的世界模型能够加强对物理规律的理解,您认为其研究进展会是什么? 这个问题非常好,也是我们目前非常关注的。

是否仍然如您所说,使用原模型来实现这种理解并应用于世界模型,还是有其他方法?

Image

并且也经常讨论一些问题。很多人认为,包括现在也有很多人在研究世界模型。

Image

它会为AI或Science等领域提供更好的融合,或者说是将Science与AI结合。 我们希望将人类积累的知识反过来注入到这些领域中。目前使用的方法并不多,可能只是将物理规律与生成的数据结合,再加上一些监督信号,让模型能够找到这些规律。

我个人认为,我们还是需要通过语言,这也是为什么我们在询问大模型或世界模型时,需要基于两个模型进行编程。因为如果我们能够通过语言将人类组织的规律告诉模型,模型就能更好地遵循指令。 因此,我认为这种方法的上限会更高,但目前还没有一个非常好的解决方案。谢谢。

另外,关于从大语言模型到世界模型的理解,我认为人类的思考模式是以语言为载体的。我们会对事物进行标记,类似于打标签,然后基于这些标签进行思考。这与老师您刚才讲的观点是一致的。

Image

从大语言模型扩展到世界模型是一致的。但我想起以前看过一个有趣的说法,比如原始人或生活在原始环境中的人,他们没有语言的概念。一个合理的推测是,他们可能以视觉作为思考的底层机制。从这个角度看,你们觉得有没有可能我们可以从一个完全不同于大语言模型的视觉角度,同样发展出我们现在所讲的整个世界的大模型?您觉得从这个角度看有可能吗?

之前李飞飞也有这个观点,他认为视觉从动物开始就已演化,大脑进化了数亿年,而语言只有短短几千年。如果说到现在主流的语言,时间会更短,甚至有文字记载的时间更短。也就是说,大部分人类智能的演化都在视觉上。

我觉得在训练AI模型时,不一定会模仿人类的演化进程。为什么呢?因为现在培养一个小孩,我们很有耐心。从出生开始,他什么都不懂,然后耐心地培养他,比如上大学、工作,一直在学习。但当你拿到一个AI产品时,你不太能接受让他学了二十年才能帮你做点事,他应该生下来就能做任何事。这就是我们的期待。为什么我们要做世界模型?比如在自动驾驶中,我们需要模拟器,因为模拟器中学习速度更快。

事实上,人类接触到的信息中,语言信息较少,大部分是视觉的感觉感知信息。我们一生中看的文字很少,真正学习的内容也很少。但在模型训练上,目前很难拿到像人类一样的感知数据。目前最大的视频或图像数据其实都非常少,最多的还是文本。这也导致了我们从文本开始训练更充分。

目前我们不太支持真正去训练一个纯世界模型。还有一个内在原因,就是我们至今没有找到像预测下一个token那样好的无监督学习方式。之前有很多人提出像Mask的想法,像乐坤大会推崇的对比学习,但到目前为止,这些学习方式的知识都非常有限,不如预测下一个词的方式好。所以多方面原因可能会让我在未来几年内想做一个世界模型时,一定是基于语言。

刚才您提到的跨模态融合,您只提到了文、音、图这三个。如果我们用人类来类比,我们除了视觉或听觉外,还有嗅觉、触觉和味觉。但这些对于嗅觉来说,可能对狗来说,它是以鼻子去嗅,占据信息社会较高。但我们人类识别气味分子可能会非常难。您对这方面,比如嗅觉或触觉甚至味觉,有什么研究方向或期待?

这也是我在刚才讲到的国资源的课题,因为像在水晓里做这些事比较难做。因为你单独一个课题做,然后在国资源那边,我就提了两个其他模态。一个是触觉,他们有些新材料可以在材料上有非常多的传感器,收集这些触觉的感知信号,还有包括脑电的这些模态,都可以并造成智能的本体。我们可以让它像人一样,有多种感知信息传过来,然后用类似于我们建国的离散模态方式去建模,其实多一个模态很容易,不需要修改架构。所以这个架构的扩展性也会非常强。

也就是说,如果是数据的话,其实就是一个材料或传感器的问题。在智能器方面,这个领域已经差不多了。还有一个难点,就是这些模态怎么去组合,然后去做更好的理解,这是一个非常困难的问题。

老师您好,我想针对刚刚的AnythingAnyGPT提一个问题,就是它那份工作是相当于是把很多延续的信息转化成了030的token。

Image

但是这其中不会有一些信息的损失吗? 比如说我说“今天天气真好”,和“今天天气真好”,这可能是后面带有讽刺的语气。这样的话,如果转化成token,可能是相同的token。那么想问一下,包括刚刚也看了那个事例,可能大部分的对话都是以正常的语气,没有特别的语气来进行。那么想问一下,当时你们在这项工作中是怎样考虑这样的语气信息呢?

对,这个问题也非常好,大家会天生地觉得离散化的表示会丢掉很多细节的信息。

Image

所以刚才讲的是语音的,当然图像中也可能更多,包括视频上。 对,这是一个目前来讲,我认为可能是这个方法的一个比较大的问题。但我觉得期望在于它的特别训练上。如果这两个东西训练得非常好,以及假如我们这个离散的麻烦,词典也非常大。理论上是完全能够做到信息损失的还原。

我给你举个非常简单的例子。比如说我们对刚才你讲的有一点,可能你是天生的,可能把它对齐到文字上。但事实上我们的语音的编码Speech的Token,它可能不只是语音,它可能语气也都会被编码到Token。所以刚才你说的真好的,真好的,它可能不一定对应你的Token。

然后我举个例子的话,比如说像我们的音乐,音乐家会把它用五线谱或者其他的乐谱符号把它写下。但是如果一个很高深的人能够看到这个乐谱,它就能把那个演奏的场景恢复出来,对吧?事实上,那就是它自己相当于大脑训练了一个对抗的对抗的。如果是训练足够好,那么我们完全可以通过符号的东西,能够恢复原始的那些信号。

从现在的角度上讲,离散符号化这件事仍然是一个非常广的研究领域。你说的这个在语音里面是有,它同时会集成在一个离散化里面。所以你说的只是认为刚刚的离散都变成语音,其实不完全是这样。我们还有副语言信息等等,这是一个开放的领域。如果感兴趣,其实有非常多的研究在这里上面来。

请邱老师你好,我有个问题也是在那个NAGPT的一方。我看到NAGPT的架构图是把音乐和speech分成了两种不同的模态。

Image

在做Tokenization时,似乎将它们分成了两种不同的Token。但我感觉可能会误以为这两种是同一种数据类型。想问一下邱老师,将它们分成两种不同的Token是出于什么考虑,或者如果我们用同一种Token来表示这两种数据会有什么问题?

嗯,这个问题可能余老师更专业一些,因为我们使用的是现成的数据集。因为有数据集图,我们可以去训练它。还有纯数据集,我们也是找了一些开源的数据集去训练,包括英语的。后来发现效果不好,我们才自己去训练。我个人觉得可以统一。我不知道余老师在实际情况下,很多人用的是同一个。对,我们当时找了两个。我们联系了比较多的研究组,向他们调取了一些数据,以及他们的编码器,然后进行训练。

老师,昨天就知道得很清楚。嗯,刚刚讲到那个,我问一下,将它们分成两种不同的Token是出于什么考虑

Image

现在对于世界模型的评测,主要是如何界定其行为的好坏。 例如,在游戏中,通常可以通过完成任务的方式来评测,但在现实生活中,我们很难界定某种行为比另一种行为更合理。不同的人在相同情况下可能会做出不同的判断。这些模型通常用于日常任务,但我们也需要设计更好的评测方法。

如果今天讨论的是游戏,那么游戏中的评测相对容易,因为它有一个真实的引擎,可以对比不同的动作。然而,它很难进行连续或长时间的评价。这是一个非常大的问题,包括真实识别也很难评价。我们通常像大语言模型一样进行评价,例如生成一个回复,但很难判断其好坏。因此,现在通常将其转化为客观评价,例如提供四个选项,让模型选择。

虽然这种方法有一定的效果,但不足以完全评价模型的能力。有些模型使用更好的模型来打分,例如现在很多模型都使用GPT-4进行打分,认为这样的模型有足够的评价能力。此外,人们也会通过观察多种事物来进行评价。确实,这个问题非常关键,我们会在下一版的实际器中强调输入的实际器,这是一个非常关键的问题。

例如,语音和文字在T时刻是对齐的,包括视频信息也是如此。模型没有时间感,因为它不知道未来的话语有多长,这是一个有趣的问题。我们在训练时也会发现这个问题,但现在token的位置和我们说话的秒数并不对齐,因此要固定说话的节奏目前还比较有挑战。不过,我们可能会在下一版中做得更好。

这个过程实际上是一个两人交互的过程,时间对齐有一类研究方案叫全双工模型。邵老师这边可能也会涉及,双工是一方面,另一方面是时间的对齐。我们的token是按位置编码123的,但我们真正想控制的是每一秒的说话节奏。语言中有很多方式来处理这个问题,如果有兴趣,我们可以专门讨论。

交互类的事情对人类来说非常重要,因为它们可以从真实场景中学习,而不是完全依赖真实数据。 这是一个非常好的问题。新的问题是在GPT模型下进行训练时如何处理复杂性。例如,我们新加入了一个模型,现在也训练完了,还有一个要加进来。

Image

如何确保之前的餐厨能力不会丧失? 我们基本上采用多阶段训练,每阶段会保留前一阶段的部分数据。例如,首先基于文本进行训练,然后以无监督的方式训练每个大模型,同时保持其他模态的少量数据,此时不会出现退化。之后,加入对齐数据,使各模态之间能够打通,最后加入指令数据,合成各种场景,如刚才提到的各种对话场景,使其能够理解指令并执行。

不同训练阶段中,各模态之间的比例非常重要。 例如,我们在训练过程中并没有过分追求性能,这通常会导致某些文化能力的下降。我们还有更新的案例。

Image

对,会更好。这里面有一个非常重要的问题。

Image

刚才提到的是双工对吧?因此,在人类交互过程中,我们可能也希望能够实现类似双工的模型架构。这是一个TDS和SR的问题,很难做到这一点。而SR只保留了文化信息,丢失了大量情感信息。

对,好,我们还有其他问题吗?今天非常感谢邱老师为我们指明了一个新方向,即如何将大语言模型推向世界模型,这可能是下一步的发展方向。我们目前已经在单点上做了一些工作,但如果我们能够真正解决这个问题,它将具有重大的影响力。因此,我们总是要去挑战,并且希望与世界同步,去真正挑战有意义的课题。

下一次的人工智能前沿讲座将回到业界。我们邀请到了联影智能的CEO周翔老师,他将为我们讲解在医疗产业一线,人工智能是如何应用于医疗领域的。联影智能是中国最早全面替代通用CT机的公司,如果你们去医院看CT,最早的CT机就是联影搞的。

Image

让我们再次热烈感谢邱老师的精彩报告。如果大家对国际前沿感兴趣,可以与我联系,也可以先与余老师联系。

Image

欢迎大家多多联系。

Image

好,今天的课程就到这里,我们下期再见。

👉 “神器来袭”ReadLecture一键总结讲座视频,图文并茂,2小时视频5分钟阅读!

往期回顾