GPT 4个里程碑
GPT-1
模型训练分为二阶段:先训练一个基座模型,各任务使用时再做fine-tuning, NLP 任务如:分词及词性分析,句法分析,文本分类,情感识别,摘要,信息抽取,关系抽取, 命名实体识别. 对标 百度Paddle LAC, ddparse模型,google bert模型
GPT-2
在GPT-1 的基础上,不用fine-tuning,升级为Prompt-tuning,对NLP 任务通过 前置标签: [分类] ,[分词] 表示任务分类,后面跟上任务内容的形式 发送给模型。对标 Paddle UIE
GPT-3.5
在GPT-2 的基础上 ,前置标签 也不用了,改用自然语言描述,用角色定位,如:你是一个xxx, 告知模型 任务的分类
GPT-4
在GPT-3.5 的基础上 ,用 12 个 GPT-3.5 + Routers 模块来处理任务,又称为MOE 架构,一个 GPT-3.5 是一个专家,但又各有所长,通过12个专家分工合作, Routers 模块路由决定激活哪个专家, 一次任务会激活2个专家, 来提高任务的处理准确度。
GPT 加化之 Token 变长:
GPT3 的基础模型 Token数为4000 ,之后出现了Token 为8000, 32000,甚至8k 的不同版本。 这些Token 的变长,并不是重新训练基础模型, 而是通过位置编码,把长文本 编码 到 4000 的范围内
GPT 加化之Function call:
之前的 GPT 的模型,只能生成文本,Function call 让模型能够调用外部的函数。这是重要的变化,以前模型只能 plan, 通过文字告诉你,做事要分成几步,任务的执行还需要人手动完成。Function call 可以让模型在给你plan 的基础上,有了action的能力。模型可以直接去处理任务。