大白话系列:穿越GPT的进化史

37 阅读9分钟

GPT的发展历程

ef5cc231e3cc590e412566b6b1d1d432

Transformer架构是google的研究人员在2017年提出来的,核心是里面的自注意力机制

2018年OpenAI基于Transformer发布了GPT-1模型,在多语言任务上展现出了优秀的性能,证明了Transformer架构的有效性。在具体介绍GPT各个版本之前,先用直觉来解释几个重要概念。

  1. 模型参数量

    前文提到过,我们要构建一个高维空间,把所有的自然语言词语装进去,用向量表示出来。一个向量对应一个词,对应空间中的一个点。空间的维度越高,里面的点就能承载更多的特征,更能客观表示一个词。

    而参数是为了预测下一个点在什么位置(对应哪个词)时计算使用的,维度越高的空间,需要确定的参数越多。因此,我们可以反过来理解,模型的参数量越多,很重要的一个因素是模型构建了一个更高维的空间来让词向量更准确。

    这些参数被保存下来,作为大模型的核心数据,用来描述大模型的规模大小。

  2. 训练数据量

    模型在真正干活(预测)之前,需要进行预训练学习,学习的东西越多,当然掌握的词规律越准确

  3. Transformer层数

    简单来说,Transformer是通过自注意力机制不断地计算下一个词的最大可能性(概率),一层就是算一次,加一层就是把第一层的结果拿出来放在第二层在算一次,层数越多直觉上结果越准确,但其实谁也没法证明。同时,每一层的计算都涉及到一套参数,层数越多,需要的参数量也就越多

GPT-1

GPT-1由12层Transformer组成,参数量1.17亿,训练数据量5GB。有两个关键特征:

  1. 无监督的预训练:提前大量学习知识,无监督的意思是不需要人为的告诉计算机每个词对不对,比如当把一个文章给到计算机的时候,我们让计算机通过前5个词预测第6个词时,实际上第6个词是存在文章中的,不需要人为再去标记;
  2. 有监督的任务微调:有监督的意思正好相反,就是需要人为的针对特定的任务给定一堆例子(样本):包括① 前提条件、② 目标结果,让计算机通过前提条件预测,在拿著预测结果比对目标结果,来调整模型的参数再次预测,直到所有例子的预测结果和目标结果都一致,则微调成功,计算过程中使用的参数被再次记录下来并更新。

通过这两种处理方式,就把GPT-1推上了自然语言处理的榜单第一,并且跟第二的差距大大拉开。

GPT-2

OpenAI尝到了甜头以后,发现这种新玩法突破了原来传统NLP技术的边界如此容易,开始了如下的改进,在2019年快速的推出了GPT-2。

找更多的语料喂给GPT,只要语料数据量足够丰富,里面包含的知识足够多,就不需要进行有监督的微调了。即不需要人为给出样本,叫做零样本学习(Zero-shot)

GPT-1由48层Transformer组成,参数量15亿,训练数据量40GB

GPT-3

2020年OpenAI发布了GPT-3,在多种标准语言理解测试中都打到了新的高度。为什么?因为层数增加到 96 层,参数量为 1750 亿,训练数据量 45TB

训练数据量是GPT-2的1000倍。由于它的参数量巨大,训练一个GPT-3模型需要花费1200万美元,没点钱肯定是烧不起。而且1750亿个参数用硬盘保存起来至少需要700GB。

这个时候的GPT更出圈了,被更多的普通人关注起来,仿佛一个智能马上要超越人类的机器人诞生了。

但随着人们使用的频繁起来,也被测出来各种回答不靠谱,比如:

  1. 它会回答一些明显是虚构出来的问题。
  2. 它会回答一些不符合人类意图的答案,比如非法的或价值观有问题的答案。
  3. 它会回答一些不真实的答案,像幻觉一样。

换句话说,语言模型更大并不能从本质上使它们更好地遵循用户的意图,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。因此促进了后续的迭代发展,也是个好事。

GPT-3.5

经过了两年的磨炼,2022年推出的GPT-3.5是GPT-3的升级版,对其问题进行了改进,它能够通过人类的反馈进行微调,使得语言模型与用户在广泛任务中的意图保持一致,说白了就是符合人们希望它能回答的预期,不乱说话。这个在专业术语中叫做”对齐“,包括”指令学习(Instruction Learning) “和”人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)“。

它层数没公开,据说也是96层,参数量和训练数据比GPT-3又放大了10倍。

目前很多AI工具中,GPT3.5也成为了亲民版的主流大模型,毕竟占了个便宜,同时效果也很可靠。

GPT-4

GPT-4可以说是GPT系列的一次重大飞跃,它的具体参数量没有公开,但肯定是又增加了。不公开也间接说明此时OpenAI也认识到一味的扩张数据量和参数量已经达到了效能边界,效能增量随着投入的增加指数型的降低。训练一个GPT-4的成本据报道约为6300万美元(4个多亿人民币,还不包括研究成本...烧出天际)。

GPT-4.0在模型架构和训练算法上进行了优化,使得其在理解上下文、推理能力和生成文本的准确性上都有了显著提升。

更进步的一点是,它具备更强的多模态能力能够同时理解文本和图像信息。使得它在一些特定场景(比如教育中的题目图片识别,医疗中的影像识别等)中展现了更大的潜力。

GPT-4o

GPT-4o是GPT4的升级版,除了效能比GPT4高(响应速度快一些、准确性高一些、并发强一些等等)之外,更关键的是增强了多模态能力,即在文本和图像输入的基础上,增加了音频和视频处理能力

GPT-o1

2023年,在GPT4的NB被逐渐消化的同时,烧钱烧出花的OpenAI为了得到更多的资金支持,需要展现出自身更多的潜力。据说随便在自己的小仓库里翻出了一个不成熟的产品GPT-o1抛出来,又炸起了一片水花。

虽然都是GPT系列,但GPT-o1和之前的GPT4可以说不是一个东西,也可以说更NB。为什么这么说?我换个方式解释一下。

有一个得过诺贝尔经济学奖的心理学大师(听起来就很强)叫做丹尼尔.卡尼曼,他的成名作叫《思考,快与慢》,里面提出了人类的思考分成快思考和慢思考两个概念。

快思考是基于直觉的、快速的、自动的思考方式。它依赖于我们的经验、情感和记忆中的模式识别,几乎不需要耗费太多的精力,是一种本能的反应。举例:当我们看到一张熟悉的面孔时,能立刻认出是谁,这个过程就是快思考在起作用;或者在驾驶汽车时,遇到突发情况(如前方车辆突然刹车),我们会不假思索地踩下刹车,这也是快思考引导的快速反应。它就像是大脑的 “自动驾驶” 模式,使我们能够在复杂的世界中迅速做出判断和行动。

慢思考则是需要耗费更多精力的、有意识的、理性的思考方式。它要求我们集中注意力,对问题进行分析、推理和计算,通常比较复杂且速度较慢。举例:在做数学难题或者复杂的商业决策时,我们需要静下心来,仔细分析各种因素、权衡利弊,这个过程就是慢思考。比如,企业在考虑是否要开拓一个新的市场时,需要分析市场需求、竞争情况、成本投入等诸多因素,这就需要慢思考来参与。

在我们的日常生活中,快思考和慢思考相互配合。快思考帮助我们快速应对简单、熟悉的情况,节省精力;而慢思考则用于处理复杂、重要的问题,以确保决策的准确性。但快思考也可能会因直觉的误导而产生错误判断,需要慢思考来进行纠正。

GPT-4是啥?它是快思考,是大量经验和知识(学习语料)的总结,本质上是学习了别人的东西。

GPT-o1是啥?它是慢思考,是高级认知功能,如逻辑推理、计划和抽象思维,它在进行深度的信息加工。

它拥有更像人类的思考方式:o1 系列模型经过精心训练,能够像人类一样花时间思考问题,尝试不同策略并自我纠错,这种接近人类思维的方式使其在解决问题时更加高效和准确。