ChatGPT的炼成方式和在哈啰营销落地能力

avatar
@哈啰

本文正在参加「技术视角深入 ChatGPT」征文活动

ChatGPT是由OpenAI开发的大型语言模型,可以帮助我们解决很多日常生活中的事情,如更改错误、写小说、回答问题、翻译、写文案等。

image.png

GPT 的演进

GPT一共有三代,即GPT-1,GPT-2,GPT-3,目前非常火的ChatGPT是GPT-3.5。GPT-1诞生于2018年6月,比BERT略早几个月,层数为12层,词向量长度为768,训练参数量为1.17亿个,数据量为5GB;时隔半年之后,GPT-2诞生于2019年2月,训练参数量为15亿个,数据量为40GB;GPT-3诞生于2020年5月,训练参数量增长超过100倍至1750亿个,数据量达到45TB。

image.png

GPT-1以Transformer 为核心结构,是自左向右单向的。GPT-2提出了“所有的有监督学习都是无监督语言模型的一个子集”的思想,即它是一个无监督模型,中间所有的过程都是通过无监督去完成的。对比GPT-2,GPT-3的模型结构上没有做任何的改变,它使用了超大的数据和参数量,真正诠释了什么叫“暴力出奇迹”。GPT系列虽然都取得了不错的成果,但始终会存在一个问题,即怎么样让它无害,它会生产出一些假的新闻,造成不好的社会影响。

GPT-1

自然语言里面有很多未标注数据,标好的数据比较少。GPT-1面临的问题是在没有标注的地方学习一个语言模型,在标好的数据上训练一个小模型。在做无监督的时候,我们会遇到两个最大的问题,一是不知道目标函数是什么,二是怎么传递到下一个子任务。

image.png

GPT-1采用的是传统语言模型的方式,k是窗口的大小,窗口越大就代表整个任务会更难。

image.png

将这些预测的概率向量和它的位置编码进行结合,就可以得到h0,h0通过transform解码器去进行解码,最终就得到它的编码,最后会接上一个微调模型。

这是GPT-1里面的应用,主要包括分类、蕴含、相似和多选,每一类任务都有一个标记,告诉这是任务的开始阶段、中间阶段还是结束阶段,如果是分类任务就在开始和结束阶段中间抽取一个text,开始和结束符号一定是特殊符号,最好不要在这些文本当中出现,最后我们再接一个Linear的分类器。二是蕴含,即B是否能够支持A,举个例子,小王和小李是好朋友,如果后面一句话是小王送给小李一个馒头,那么它的结果可能是正确的,这句话能证明他们是好朋友。如果是小王今天中午吃了一个馒头,这并不能证明小王和小李是好朋友。三是相似度的训练,类似头条的去重可以用到这样的算法。四是多选,即有A、B、C三个选择,应该去选择哪一个。当然整个的效果是不如BERT的,从技术难度上来说,BERT会更简单,并且GPT-1用的数据本身没有BERT那么大。

image.png

GPT-2

GPT-2模型来自论文《Language Models are Unsupervised Multitask Learners》,它希望通过zero-shot有所创新,即对于下游任务,不需要标注信息,在任何地方都能用。这里不能引入之前模型没见过的符号,提示符看上去更像一句话,这也是ChatGPT最初的一个版本,冒号前面告诉它你要做什么事情,如在英语到法语的翻译任务中,给模型一个英语和法语。或者告诉模型去回答一个问题,这个问题是什么,它会告诉你答案是什么。作者在阅读理解、翻译、总结和回答问题上进行实验,可以发现GPT-2在阅读理解和回答问题上效果会更好一些,同时当它的数据量越大,模型能够继续上升。

image.png

GPT-3

GPT-3模型来自论文《Language Models are Few-Shot Learners》,受到了zero-shot的启发,我们发现用大量的数据去做标注很困难,但如果一个样本都没有,它的泛化性不一定好,同时人类不需要很大的数据去做任务。这里用了两个方法,一是元学习,二是in-context learning。

image.png

接下来我们来看一下Zero-shot、One-shot、Few-shot和Fine-tuning的区别。最常见的是Fine-tuning,即会给一批新的数据,需要对原来的数据做一定的梯度更新;Zero-shot是说只给提示,剩下自己去做;One-shot是说会告诉你去做什么,还会给一个示例;Few-shot是说会给更多的示例,告诉任务应该做成什么样。In-context learning是它的核心,指我们对模型进行引导,教会它应当输出什么内容。

image.png

作者对这3种学习方式分别进行了实验,可以看到在效果上Few-shot> One-shot > Zero-shot,且参数量越大模型表现越好。

image.png

ChatGPT的原理

ChatGPT的训练可以分成三步,第一步是需要去做一个有监督的模型;第二步是去收集数据给模型一个反馈,即做强化学习;第三步是根据强化学习,去优化原来的模型。

image.png

整个训练过程可以分为四个阶段,包括文字接龙、找一个老师、让老师给评分以及成为老师。

image.png

文字接龙

ChatGPT的第一个学习阶段是文字接龙,当我们给出一个不完整的句子,如“这个大白”,GPT会接下一个字,如“大白天”、“大白美”、“大白丑”,每次输出都会不一样,但是它会有一个概率。这里我们举个例子,如胡歌很帅,它刚开始学的就是胡,去预测胡歌;已知胡歌,去预测胡歌很;已知胡歌很,去预测胡歌很帅,整个过程完全不需要人工标注。

image.png

文字接龙有什么用呢?它就能够帮我们回答很多问题。如它在网上看到了一句话叫做“中国最大的淡水湖”,然后让它回答问题,它可以一个个字接下去,就可能会回答鄱阳湖。当然如果这样去做,它的准确率是非常低的,因为没有标注的数据,质量都是不可控制的。

image.png

比如说你问它“中国最大的淡水湖”,它可能回答“鄱阳湖”,也有可能回答“这个问题谁知道呢”,还有可能回答网上的一个选择题“是鄱阳湖还是太湖呢”。那么,怎么让它输出稳定下来变得更加可控呢?

image.png

找一个老师

要达到一个可用的状态,就要给它找到一个老师,去提供正确的答案,当然这种答案不需要特别多,ChatGPT里面大约给了一万个正确的答案。老师就会告诉它“中国最大的淡水湖是鄱阳湖”,然后对这些正确的答案加上更多的权重,告诉它人类的偏好是这样的,激发它本来的力量,本来ChatGPT也有能力生成这些答案。

image.png

让老师给评分

当它找到老师以后,就可以去慢慢模仿一个老师的喜好。当GPT去输出“鄱阳湖”、“太湖”的时候,会有一个判别器告诉说得分是多少,如果是“鄱阳湖”就可以给它更高的分数。

image.png

成为老师

在得到评分的标准后,我们需要把标准告诉GPT,让它知道这个答案是正确的,这就是比较常见的强化学习。即会告诉你,如果你回答对了,我会给你一个奖励,然后你去反馈到GPT当中去,给鄱阳湖加上更多的权重,这样ChatGPT就会自己成为老师,知道什么样的答案是正确的答案。

image.png

ChatGPT在营销的应用

ChatGPT最核心的观念有两个,一是使用了超大的参数,二是给数据做高质量的标注。这可以给算法同学一个启示,我们大部分时间可以不花在怎么用一些DIN、DCN、DeepFM之类的模型,更重要的是需要去给它更多的数据,加大它的参数量;二是高重量的标注,训练样本的质量一定要高,不能给一些错误或者模糊的答案,要给的数据标签一定要是非常正确的标签。在哈啰目前还没有一个超大模型出现,应用在推荐、营销、定价等各个方向。

image.png

应用场景主要有两个,一是逛逛,在ChatGPT上面我们可以告诉它一句话,然后它可以去生成图片,或者在逛逛里面的一个问题,我们可以用ChatGPT去辅助回答。二是运营同学在做广告标签的时候,我们可以去让ChatGPT生成这些标语,拿过来给它十句左右的提示语,适应哈啰的场景。

image.png

(本文作者:王伟)

关注公众号「哈啰技术」,第一时间收到最新技术推文。