青训营X豆包MarsCode 技术训练营 | 豆包MarsCode AI 刷题”)

73 阅读2分钟

ChatGPT(Chat Generative Pre-training Transformer) 是一个 AI 模型,属于自然语言处理( Natural Language Processing , NLP ) 领域,NLP 是人工智能的一个分支。所谓自然语言,就是人们日常生活中接触和使用的英语、汉语、德语等等。自然语言处理是指,让计算机来理解并正确地操作自然语言,完成人类指定的任务。NLP 中常见的任务包括文本中的关键词抽取、文本分类、机器翻译等等。NLP 当中还有一个非常难的任务:对话系统,也可被笼统称为聊天机器人,正是 ChatGPT 所完成的工作。 ChatGPT 是一个语言模型,是属于 NLP 领域的概念。那什么是语言模型呢? 语言模型,就是由计算机来实现类似于人的语言交流、对话、叙述能力,它集中体现在模型能够依赖上下文进行正确的文字输出。 最经典的语言建模就是根据上文,输出下文,也就是例 2 的形式,这也是 GPT 模型的建模形式。 训练 ChatGPT 所需要的文本,主要来自于互联网,这是一个有限的集合。而人类对 ChatGPT 提出的问题则无穷无尽,永远没有尽头,人类想要知道、感兴趣的内容,并不一定就存在互联网上。 按照传统的深度神经网络模型的训练思路,它只能根据互联网上已有的数据,做问答对标注,进训练模型。它学习的只是已有的数据本身。而 ChatGPT 所利用的强化学习的思路,则是模拟一个环境模型(Reward 模型)。 首先,ChatGPT 会针对某一个问题,生成一个回答,环境模型会对 ChatGPT 生成的答案做评价,评价一个分值出来(如 10 分、3 分等等,高分代表奖励,低分代表惩罚),而不具体给出标准答案。ChatGPT 接收到评价反馈后,可以根据这个数值做模型的进一步训练,朝着生成更加恰当答案的方向拟合。