青训营豆包ChatGPT 语言模型的训练方式假设我们已经获取了大量的语料数据，即将训练一个自己的 ChatG

ChatGPT 语言模型的训练方式假设我们已经获取了大量的语料数据，即将训练一个自己的 ChatGPT 模型，语料样例如下：

文本1：甲方应当在收到上述租金后 15 日内，应向乙开具合法有效的增值税专用发票。

文本2：去餐厅吃饭的时候，别人都不愿意和我坐在一起，我只能孤零零的一个人，所以很不开心。

文本3："止咳化痰”及其它对症治疗后，咳嗽咳痰较前好转。患者当地医院支气管镜我院病理会诊（H2019-00310）：阅杭州迪安医学检验中心 HZ2019066642 HE×2张，IHC×8张

文本n：... ...

这些语料描述的内容千奇百怪，长度各不相同，当然还有错别字、特殊符号等等。我们该如何组织利用这些数据呢？

模型的训练方式，归根结底就是要做概率的预测。首先，抽取其中一条文本，例如这一条法律领域的文本：

甲方应当在收到上述租金后 15 日内，应向乙开具合法有效的增值税专用发票。

首先，我们只关注句子的开头，把“甲方”二字当作模型的输入，预测模型接下来最有可能输出什么汉字：

一个优质的 GPT 预训练语言模型应当能够根据上文，来对下文进行预测。这里的训练过程就用到了前述的最大似然估计，“甲方”二字是一个不完整的句子，后续可以接续很多可能的汉字组成连贯的句子，比如“甲方应当在……”“甲方如有违约……”“甲方可以申请……”等等。后续可以接任何汉字，所有的条件概率加起来概率等于 1