ChatGPT 语言模型的训练方式 假设我们已经获取了大量的语料数据,即将训练一个自己的 ChatGPT 模型,语料样例如下:
文本1:甲方应当在收到上述租金后 15 日内,应向乙开具合法有效的增值税专用发票。
文本2:去餐厅吃饭的时候,别人都不愿意和我坐在一起,我只能孤零零的一个人,所以很不开心。
文本3:"止咳化痰”及其它对症治疗后,咳嗽咳痰较前好转。患者当地医院支气管镜我院病理会诊(H2019-00310):阅杭州迪安医学检验中心 HZ2019066642 HE×2张,IHC×8张
文本n:... ...
这些语料描述的内容千奇百怪,长度各不相同,当然还有错别字、特殊符号等等。我们该如何组织利用这些数据呢?
模型的训练方式,归根结底就是要做概率的预测。首先,抽取其中一条文本,例如这一条法律领域的文本:
甲方应当在收到上述租金后 15 日内,应向乙开具合法有效的增值税专用发票。
首先,我们只关注句子的开头,把“甲方”二字当作模型的输入,预测模型接下来最有可能输出什么汉字:
一个优质的 GPT 预训练语言模型应当能够根据上文,来对下文进行预测。这里的训练过程就用到了前述的最大似然估计,“甲方”二字是一个不完整的句子,后续可以接续很多可能的汉字组成连贯的句子,比如“甲方应当在……”“甲方如有违约……”“甲方可以申请……”等等。后续可以接任何汉字,所有的条件概率加起来概率等于 1