大语言模型-LLM概述

261 阅读3分钟

大语言模型(Large-Language-Model,LLM)

大语言模型是一种用于生成自然语言文本的深度学习模型,通常采用神经网络来学习语言的结构和规律,并用这些知识来反复预测输入字符的下一个字符来生成新的文本。大语言模型通常需要大量的训练数据和计算资源,以便在生成文本方面达到高质量的效果。

什么是大语言模型

大模型的定义关键词是:语言模型

  • 语言模型

    本质就是续写:输入一段话,由模型续写后面的话。能完成这样任务的模型,我们称之为语言模型。

    • 输入可以是一个字,可以是很长的一段话,模型可能只续写一个字,也可能续写几千字(但是每次执行只续写一个字,可以通过如下面例子的多次循环执行来续写多个字)。

    • 通过加入某个特殊字符比如""作为终止符,如果模型输出了终止符,我们就认为该结束了。这样,模型就可以选择在合适的时候结束自己的输出。终止符本身在输出时可以忽略。

    • 模型每次只续写一个字,举个例子:

      • 输入“你”,模型续写输出了“好”;
      • 输入“你好”,模型续写输出了“,”;
      • 输入“你好,”,模型续写输出“小”;
      • 输入“你好,小”,模型续写输出“帅”;
      • 输入“你好,小帅”,模型续写输出“”,工作结束;
      • 总体上看,我们输入了“你”,模型输出了“好,小帅”。
  • 模型的参数量大,通常需要达到十亿量级以上,甚至千亿、万亿。

    参数:由可以学习的【神经元】组成的大脑,【神经元】之间的关系称为参数

    研究发现,随参数上升到一定数量级,模型表现发生质变,称为**“涌现能力”**

    模型名参数规模
    GPT31750亿
    GPT4100万亿
    Kimi2000亿

【一些理解误区】

  • 大模型越问越聪明:模型聪明程度与模型参数相关,参数都是在预训练阶段产生的,部署后的模型被称为“Frozen LLM”,不会随着不断提问产生参数

  • 大模型知道事实本身:大模型不“记忆”任何事实,而是通过学习数据中的模式、关系和统计规律来生成输出,通过训练过程转化为模型的参数。所有看似“知道”,都是基于参数对输入的“推理”结果

  • 大模型知道现在发生的事:大模型本身部署后,参数不发生变化,原则上只知道部署前用于训练的事实,而无法知晓之后发生的新事件。为了弥补这一局限性,大模型通常会结合传统搜索和信息检索技术(如RAG)来获取最新的信息。

  • 大模型对同一个问题总能做出固定的答案:大模型答题过程,本质是基于参数对输入进行推理,但不代表每次推理的路径和结果是一致的,稳定和联想的要求是相悖的,但可以通过明确解题步骤让大模型的输出结果趋于统一。