大语言模型(Large-Language-Model,LLM)
大语言模型是一种用于生成自然语言文本的深度学习模型,通常采用神经网络来学习语言的结构和规律,并用这些知识来反复预测输入字符的下一个字符来生成新的文本。大语言模型通常需要大量的训练数据和计算资源,以便在生成文本方面达到高质量的效果。
什么是大语言模型
大模型的定义关键词是:大、语言模型
-
语言模型:
本质就是续写:输入一段话,由模型续写后面的话。能完成这样任务的模型,我们称之为语言模型。
-
输入可以是一个字,可以是很长的一段话,模型可能只续写一个字,也可能续写几千字(但是每次执行只续写一个字,可以通过如下面例子的多次循环执行来续写多个字)。
-
通过加入某个特殊字符比如""作为终止符,如果模型输出了终止符,我们就认为该结束了。这样,模型就可以选择在合适的时候结束自己的输出。终止符本身在输出时可以忽略。
-
模型每次只续写一个字,举个例子:
- 输入“你”,模型续写输出了“好”;
- 输入“你好”,模型续写输出了“,”;
- 输入“你好,”,模型续写输出“小”;
- 输入“你好,小”,模型续写输出“帅”;
- 输入“你好,小帅”,模型续写输出“”,工作结束;
- 总体上看,我们输入了“你”,模型输出了“好,小帅”。
-
-
大:
模型的参数量大,通常需要达到十亿量级以上,甚至千亿、万亿。
参数:由可以学习的【神经元】组成的大脑,【神经元】之间的关系称为参数
研究发现,随参数上升到一定数量级,模型表现发生质变,称为**“涌现能力”**
模型名 参数规模 GPT3 1750亿 GPT4 100万亿 Kimi 2000亿
【一些理解误区】
-
大模型越问越聪明:模型聪明程度与模型参数相关,参数都是在预训练阶段产生的,部署后的模型被称为“Frozen LLM”,不会随着不断提问产生参数
-
大模型知道事实本身:大模型不“记忆”任何事实,而是通过学习数据中的模式、关系和统计规律来生成输出,通过训练过程转化为模型的参数。所有看似“知道”,都是基于参数对输入的“推理”结果
-
大模型知道现在发生的事:大模型本身部署后,参数不发生变化,原则上只知道部署前用于训练的事实,而无法知晓之后发生的新事件。为了弥补这一局限性,大模型通常会结合传统搜索和信息检索技术(如RAG)来获取最新的信息。
-
大模型对同一个问题总能做出固定的答案:大模型答题过程,本质是基于参数对输入进行推理,但不代表每次推理的路径和结果是一致的,稳定和联想的要求是相悖的,但可以通过明确解题步骤让大模型的输出结果趋于统一。