第二十天:涌现(Emergence)

273 阅读7分钟

如何快速掌握一个行业?100个关键词就够了,跟我来一起学习吧:一天一个关键词-AIGC-100天

在人工智能领域,特别是在讨论大模型时,"Emergence"(出现性或突现性)指的是当模型达到一定的规模和复杂度时,它们开始展现出一些预料之外的行为或能力的现象。这些特性或能力在模型的较小、较简单版本中通常是不可见的。以下是一些关键点来帮助理解大模型中的突现性:

  1. 复杂性的增加:随着模型变得更大,它能够处理的信息类型也变得更加复杂,这使得模型能够理解和生成更复杂的语言模式、解决更复杂的问题,甚至在特定任务上超越人类的表现。
  2. 非线性学习:大模型通过从大量数据中学习,能够发现和利用数据之间的非线性关系。这意味着模型的表现并不是简单地随着数据量的增加而线性提高,而是可能会在达到某个点之后突然展现出新的能力。
  3. 多任务学习:大模型,如GPT(生成式预训练变换器)系列,被设计为多任务模型,可以在没有特定任务训练的情况下,仅通过调整输入格式,就能在多种任务上表现出色。这种灵活性和适应性是模型规模增大带来的一个明显优势。
  4. 创新性和创造力:随着模型规模的增加,它们在生成文本、图像、音乐或代码时表现出来的创新性和创造力也随之提高。这种能力的提升很大程度上是由于模型能够在巨大的数据集中寻找到新颖的模式和关联。
  5. 意外行为:大模型有时也会表现出一些开发者和研究者预料之外的行为,这些行为可以是积极的,如解决一个认为需要人类直觉的问题,也可以是需要注意的,如在没有适当约束的情况下生成不当内容。

总的来说,大模型中的Emergence体现了人工智能领域中的一个重要趋势:随着技术的发展和模型规模的扩大,我们能够观察到越来越多意想不到的、复杂的和有创造力的行为和能力的出现。这既是挑战也是机遇,要充分利用这些新兴能力,同时也需要对可能的风险和挑战保持警惕。

LLM 表现出的涌现现象

目前有两大类被认为具有涌现能力的任务

第一类是 In Context Learning(“Few-Shot Prompt”),用户给出几个例子,大模型不需要调整模型参数,就能够处理好任务。在模型规模不够大的时候,各种任务都处理不好,但是当跨过某个模型大小临界值的时候,大模型就突然能比较好地处理这些任务。

第二类具备涌现现象的技术是思维链( CoT)。CoT 本质上是一种特殊的 few shot prompt,就是说对于某个复杂的比如推理问题,用户把一步一步的推导过程写出来,并提供给大语言模型,这样大语言模型就能做一些相对复杂的推理任务。

LLM 模型规模和涌现能力的关系

可以看出,涌现能力和模型的规模大小有一定的关联关系 ,那么,我们的问题是,具体而言,两者是怎样的关系呢?之前常见的说法是:只有大语言模型规模超过 100B 或 68B,才会出现涌现现象。其实,这种说法是不足够精确的。

如果我们精确来看的话,会发现大语言模型是否具备涌现现象,这个事情是比较复杂的,很难通过某个特殊数字来概括。目前看,模型的涌现能力,跟具体任务是什么、模型规模多大、具体使用的是什么模型,以及评测指标是什么等很多因素都有密切关联。

把模型做小会影响 LLM 的涌现能力吗?

因为对很多任务来说,只有模型规模做到比较大,才能具备涌现能力,所以我个人比较关心下列问题:我们能不能把模型做小?把模型做小是否会影响到 LLM 的涌现能力?这是个很有趣的问题。我们这里拿两个小模型代表来探讨这个问题。

下载.png

第一个小模型代表,是 DeepMind 2021 年发表的模型 Chinchilla,这个模型目前做各种任务的效果,和 540B 大小的 PaLM 基本相当。Chinchilla 的思路是给更多的数据,但是把模型规模做小。具体而言,它对标的是 Gopher 模型,Chinchilla 模型大小只有 70B,是 Gopher 的四分之一,但是付出的代价是训练数据总量,是 Gopher 的四倍,所以基本思路是通过放大训练数据量,来缩小模型规模。

我们把 Chinchilla 规模做小了,问题是它还具备涌现能力吗?从上图给出的数据可以看出,起码我们可以说, Chinchilla 在自然语言处理的综合任务 MMLU 上是具备涌现能力的。如果小模型也能具备涌现能力,那么这其实侧面反映了一个问题:对于类似 GPT3 这样的模型而言,很可能它 175B 这么多的模型参数,并没有被充分利用,因此,我们在以后训练模型的时候,可以考虑先增加训练数据,降低模型参数量,把模型做小,先把模型参数利用充分,在这个基础上,再继续增加数据,并推大模型规模。也即是说,目前看,我们先把模型做小,再把模型做大,看上去是可行的。

下载 (1).png

第二个小模型代表是 Meta 发布的开源模型 LLaMA,它的做法其实很好理解,本质上就是开源的 Chinchilla,它的思路是完全遵照 Chinchilla 来做的,就是说增加训练数据,但是把模型规模做小。那么 LLaMA 是否具备涌现能力呢?从上图表格数据可以看出, 虽然 LLaMA 在 MMLU 这个任务上比 Chinchilla 稍差一些,但是效果也不错。这说明 LLaMA 在 MMLU 上基本也是具备涌现能力的。

模型训练中的顿悟现象

这里介绍一个比较新的研究方向,顿悟现象,英文叫 “Grokking”。 在这里介绍模型训练过程中的顿悟,目的是希望建立起它和大模型涌现能力之间的联系,我在本文后面会尝试用顿悟现象来解释大模型的涌现能力。

下载 (2).png

我们首先解释下什么是顿悟现象。如上图所示,对于一个训练数据较少的数学任务(通常是数字求和取余数的问题),研究人员发现一种新奇的现象。比如我们将数据集切成两块,50% 数据作为训练集(图中红线展示了随着训练过程往后走,任务指标的变化情况),50% 的数据作为验证集(图中绿线的走势展示了训练动态)。在学习数字求和取余这个任务时,它的训练动态会经历三个阶段:

  • 第一个阶段是记忆期:红线对应的训练数据指标突然走高,代表模型记住了 50%的训练数据的结果,而绿线对应的验证集指标接近 0,说明模型完全没有泛化能力,就是说没有学会这个任务的规律。所以这个阶段模型只是在单纯地记忆训练数据。
  • 第二个阶段是平台期:这个阶段是记忆期的延续,体现为验证集合效果仍然很差,说明模型仍然没有学会规律。
  • 第三个阶段是泛化期:这个阶段验证集合效果突然变好,这说明突然之间,模型学会了任务里的规律,也就是我们说的,出现了顿悟现象,突然就学明白了。

原文地址:www.infoq.cn/article/gjl…