青训营X豆包MarsCode 技术训练营第一课 | 豆包MarsCode AI 刷题

92 阅读3分钟

ChatGPT的语言模型 ChatGPT 是一个语言模型,是属于 NLP 领域的概念。 例1:请各位做一个完形填空:掘金社区是一个______的技术交流平台。

在这个例子里,上述的空格处应该填什么字呢?中文汉字总共有上万个,空格里填任何一个字,都算是完成了填这个动作,我们真正关心的,是填什么字才能让文字读起来通顺。 所谓语言模型,就是由计算机来实现类似于人的语言交流、对话、叙述能力,它集中体现在模型能够依赖上下文进行正确的文字输出。把上述这些预测空格内容的问题交给计算机建模来完成,就实现了语言模型的训练。换句话说,语言模型就是由上述的方式来进行训练的。 1、语言模型基础建模 最经典的语言建模就是根据上文,输出下文,也就是例 2 的形式,这也是 GPT 模型的建模形式。 2、N-gram 语言建模 日常生活中,接触到的新闻文本可以非常长,动辄上千字、上万字的文章随处可见。过长的文本将导致在计算语言模型的条件概率时非常复杂,因此我们通常考虑将上下文依赖局限在一个较短的范围内。 通常情况下,语言模型的建模公式采用 n-gram 模型,这个词没有对应的中文翻译,其含义是就近原则,距离第 i 个字符相隔 n 个字符距离以上的,就不在考虑范围内了。 3、语言模型 log 化 在实际的语言模型建模过程中,往往上下文联系多达上百个字,按照上述方法计算下去,其结果会逐渐趋近于 0。但是,这里这存在一个问题。 出现的概率,即依赖上文,对下文的预测。把每一个字符都按照此方式预测出来,其结果就是整条语句的出现概率。 ChatGPT 的语言模型 1、ChatGPT 的建模公式 ChatGPT 就是一个复杂的语言模型,其内部原理和上述的概率模型本质上是一样的。

ChatGPT 是利用成千上万的文本语料训练得来的。 2、语言模型中的最大似然概率 在 ChatGPT 的语言模型公式中,它其实就是一种最大似然的建模方式。在概率论中,最大似然概率是一种最为简单,也最为广泛应用的近似估计方法。 3、ChatGPT 语言模型的训练方式 假设我们已经获取了大量的语料数据,即将训练一个自己的 ChatGPT 模型,语料样例如下:

文本1:甲方应当在收到上述租金后 15 日内,应向乙开具合法有效的增值税专用发票。

文本2:去餐厅吃饭的时候,别人都不愿意和我坐在一起,我只能孤零零的一个人,所以很不开心。

文本3:"止咳化痰”及其它对症治疗后,咳嗽咳痰较前好转。患者当地医院支气管镜我院病理会诊(H2019-00310):阅杭州迪安医学检验中心 HZ2019066642 HE×2张,IHC×8张

文本n:... ...

这些语料描述的内容千奇百怪,长度各不相同,当然还有错别字、特殊符号等等。我们该如何组织利用这些数据呢?

模型的训练方式,归根结底就是要做概率的预测。