GPT 4个里程碑

GPT-1

模型训练分为二阶段：先训练一个基座模型，各任务使用时再做fine-tuning, NLP 任务如：分词及词性分析，句法分析，文本分类，情感识别，摘要，信息抽取，关系抽取, 命名实体识别. 对标百度Paddle LAC, ddparse模型，google bert模型

GPT-2

在GPT-1 的基础上，不用fine-tuning,升级为Prompt-tuning,对NLP 任务通过前置标签: [分类] ,[分词] 表示任务分类，后面跟上任务内容的形式发送给模型。对标 Paddle UIE

GPT-3.5

在GPT-2 的基础上，前置标签也不用了，改用自然语言描述，用角色定位，如：你是一个xxx, 告知模型任务的分类

GPT-4

在GPT-3.5 的基础上 ,用 12 个 GPT-3.5 + Routers 模块来处理任务，又称为MOE 架构，一个 GPT-3.5 是一个专家，但又各有所长，通过12个专家分工合作, Routers 模块路由决定激活哪个专家，一次任务会激活2个专家, 来提高任务的处理准确度。

GPT 加化之 Token 变长:

GPT3 的基础模型 Token数为4000 ，之后出现了Token 为8000, 32000，甚至8k 的不同版本。这些Token 的变长，并不是重新训练基础模型, 而是通过位置编码，把长文本编码到 4000 的范围内

GPT 加化之Function call:

之前的 GPT 的模型，只能生成文本，Function call 让模型能够调用外部的函数。这是重要的变化，以前模型只能 plan, 通过文字告诉你，做事要分成几步，任务的执行还需要人手动完成。Function call 可以让模型在给你plan 的基础上，有了action的能力。模型可以直接去处理任务。

一分钟白话GPT 系列模型历史及原理