在人工智能的迅猛发展中，我们见证了一个全新的里程碑，大型语言模型（LLM）在处理海量数据的同时，不断突破性能极限。随着模型规模的扩大，它们不仅在现有任务上展现出惊人的能力，更在自我改进和进化上迈出了关键一步。然而，AI 的局限性，尤其是在学习能力上，提醒我们它们与人类智能的本质差异。本文将深入探讨这一主题，揭示 AI 在固定学习与推理能力上的局限，以及它们如何通过上下文学习实现自我超越。

摆脱历史学习

使用最先进的人工智能系统或者大语言模型，我们必须清楚地将知识学习与知识推理分开。它们都是固定在时间中的过程，其中一个在另一个之后发生。简单地说，一旦大语言模型完成了学习阶段，它就停止了学习。

从那时起，LLM 只是通过推理引发知识，但除非我们再次训练 (微调)，否则它们不会学到任何新东西。然而，微调也有其缺点。除了额外的成本外，微调通常涉及一种权衡；模型会学习新的东西，但往往会在原本的其他方面牺牲知识。

在将新内容输入模型使其学习时需要对模型参数进行一些调整（类似于人类学习新概念并在大脑神经元之间诱发新的或更强的突触连接，也就是突触可塑性）。LLM 具有一个与其他人工智能系统截然不同的独特特性：它们是基础模型，模型已经接触了如此多的数据，以至于它们已经成为通用系统，能够用于许多不同的任务，甚至是模型之前没有见过的任务。

具体而言，LLM 建立了对世界的广泛知识的 "一般先验知识"，这使他们能够将这些知识转化到不同的任务，甚至是新任务中。例如，基础模型学习在不特别为此进行训练的情况下翻译不同语言之间的文本。在接触了数百万英文和中文单词后，它们已经学到了足够多关于这两种语言的知识，可以在它们之间进行自如翻译。但是如何做呢？这种将广泛知识转化为学习新任务基础的能力通常被描述为在上下文学习中展现出来的他们最强大的超能力。

在上下文中学习

从功能角度理解，上下文学习是指 LLM 无需显式调整或调整模型权重就能学习新任务的能力。由于 LLM 的特质，它们能够有效地利用所提供的上下文进行学习，即使之前从未见过，但是仍能有效地执行新任务。

这一功能也是当今最受欢迎的一种LLM实现方法之一——检索增强生成（RAG）的基本推动因素。在这种方法中，模型在实时将与上下文相关的数据输入到提示中，无需每次需要提供新数据时训练模型。

尽管目前无法完全解释为什么上下文学习会发生，但可以推断这实际上是一个非常精密的 “复制-粘贴” 系统。通过这样的研究，人们观察到了一些注意力头部 (attention head)，即执行注意力机制的LLM中的组件，变成了 “归纳头部(induction heads)”，即专门研究当前 token，在过去找到它，并关注下一个 token 以增加生成完成模式的可能性。

在上下文中学习通过两种方式完成：

Zero-shot: 在这种情况下，不需要提供具体的例子。这基本上是 “无上下文” 的预测，显然是最困难和最受追捧的模型特征。
Few-shot: 先输入一组示例，就像在要求模型解决一个新问题之前，提供几个数学方程的解决方案一样，提供更多的上下文，结果就会越好。

随之而来，这也有一个问题，如果向 LLM 模型提供成千上万的例子呢？

增强智能的上下文

尽管人工智能和大语言模型在过去两年取得了许多令人惊叹的成就，但在规划和推理方面仍然非常愚笨。

根据相关的研究结果，Many-shot (多样本) 学习效果非常好，并且普适性强。根据 Gemini 1.5 Pro 使用最具挑战性的一些基准，拥有 1001 个最长上下文窗口的一百万 token，Many-shot 学习提供了极大改进的结果。

这种模型在数学、机器翻译、问题回答、代码验证、情感分析甚至克服预训练偏见等领域都表现出了统计学上显著的改进，只需要通过 prompt 向模型输入数百甚至数千个样例。

增强推理和规划

AI 的下一个前沿将基于增加测试时间计算的自然倾向。简而言之，不再期望模型立即响应，而是让它们在提供实际答案之前探索答案。

在推断中，每当模型接收到用户的提示时，它会对几个可能的响应进行抽样，并积极基于 Tree-of-Thought 等技术寻找最佳答案。为了协助搜索，另一种模型 —— 验证器，积极评估潜在的响应，引导 LLM 通过响应图，直到找到最佳的响应并最终提供给用户。

Google Deepmind 建议创建 “验证器”，但实际上没有对其进行训练。相反，通过提供数百或数千个示例，这个模型变成了一个不需要训练的验证器。

根据规划模型的结果，表明可能通过简单地利用 Many-shot 学习的力量来提高规划能力，而不必改变当前的范式，来应对这种新的测试时间计算趋势。

强化和无监督上下文学习

有一个令人着迷的结论，我们实际上可以通过 LLM 生成的例子来改进模型结果。如果我们必须提供一个拥有成千上万甚至几十万例子的模型，完全靠手工来做是毫无意义的，这是不可行的。

然而，当使用 LLM 生成的响应 (强化上下文学习) 时，模型的性能得到了提升，即使在例子中没有实际答案 (无监督上下文学习) 时也是如此。

无监督的上下文学习的一个例子可能是为模型提供数百个没有答案的问题。为什么这仍然可能有效？一个直觉是，模型已经具备了这些知识，而这些例子只是帮助它 “点拨” 这些知识。

这表明合成 (非人类) 数据对人工智能扩展的未来具有巨大潜力，微软在 Phi 家族中已经证明了这一点，精心策划的数据最终可能导致不断学习不断改进的人工智能系统。

新的表现范式

总的来说，Many-shot 学习证明是一种非常强大的工具，可以改善 LLM 任务的整体广度和深度性能。在许多方面，它可以被视为团队人工智能工程师在未来几个月内迫不及待地采用的通用增强工具，这是一种简单而可靠的方法，用于改善系统性能。它也可以作为前沿人工智能当前趋势的一种替代方案，该趋势是通过显著增加推理成本来提高复杂任务的性能。

因此，尽管 Many-shot 学习看起来是一条相当陡峭的路线，但几乎可以肯定比将 LLM 与强大的搜索算法相结合要便宜得多，这会将推断成本增加数个数量级，就像谷歌 Deepmind 的 Alphacode 的例子那样，这无疑是 AI 前沿正在追求的方向。

最后，AI 生成的示例仍然改善了许多学习的结果的证据清楚地表明，人工智能训练的人工生成数据时代已经慢慢结束，未来人工智能模型具有不断改进的潜力与其自身的回应形成永无止境的自我改进循环。

结语

随着 Many-shot 学习的诞生，我们对 LLM 的理解达到了新的高度。它不仅是一种通用增强工具，而且预示着人工智能训练的未来可能不再依赖于人工生成的数据。随着 LLM 的自我学习和自我改进能力的增强，我们正步入一个全新的人工智能时代，其中智能系统将能够通过自己的响应进入一个永无止境的自我提升循环。这不仅是技术进步的象征，更是对人工智能未来发展无限可能性的一次深刻反思。

上下文Context在大语言模型中的重要性