《AI工程》:大语言模型,到底是什么?

0 阅读5分钟

一个领域越是令人感到纷繁复杂,就越需要一个框架来厘清思路。

当你拿着一张地图,那么一个城市,甚至一个国家,也不觉得有那么大了。

本书就扮演这样的角色,跟随这个系列读完,你将对很多AI相关的常识性和技术性的问题豁然开朗。

量级跃迁

人类对人工智能的研究由来已久,其中最引入瞩目的成果,当属“深蓝”和“阿尔法狗”。

但没有一次,能像2020年之后事态发展如此迅猛和神奇,用一个词来描述,就是规模(scale)。

像ChatGPT、Gemini和Midjourney等应用背后的AI模型规模如此庞大,再加上硬件、架构、算法等方面的优化,才使得它让所有人刮目相看,人工智能再也不是那个略显死板的“傻孩子”,好像真的有了智能。

语言模型

先来理解“模型”,在人工智能领域,“模型”不是物理实体,而是一个数学模型计算程序,从海量数据中学出来的函数或规则集合

语言模型,是可以对一种或多种语言的统计信息进行编码的程序。这些信息告诉我们一个词在特定上下文中出现的可能性。

语言模型的基本单位是token。根据模型的不同,一个token可以是一个字符、一个单词,或者一个单词的一部分。

模型能够处理的所有token的集合称为模型的词表(vocabulary)。你可以用少量的token构建大量不同的单词,类似于用字母表中的字母构建许多单词。

为什么语言模型以token,而不是单词或字符为单位?

主要以下三个原因:

  1. 与字符相比,token允许模型将单词拆分为有意义的组成部分。例如,cooking可以拆分为cook和ing,这两个部分都携带了原单词的一些含义。
  2. 因为token数比单词数少,这减小了模型的词表,使模型更加高效。
  3. token还能帮助模型处理未知单词。例如,一个虚构的单词chatgpting可以拆分为chatgpt和ing,帮助模型理解其结构。token在数量上比单词少,同时又比单个字符携带更多的含义,实现了二者之间的平衡。

补全机器

简单讲,你可以将语言模型看做一个“补全机器”,它的补全方式有两种:

1、根据上下文补全中间缺失的部分,类似填空(掩码

2、根据上一个预测下一个(自回归

第一种适合:情感分析、文本分类、代码调试等。

第二种适合:文本生成等。

我们要重点讨论的就是第二种。它的输入和输出就像这样:

提示词(来自用户):To be or not to be

补全(来自语言模型):that is the question

大语言模型

为什么偏偏是语言模型成为规模化方法的核心,并最终引爆了ChatGPT时刻呢?

答案是语言模型可以通过自监督的方式进行训练,而许多其他模型需要监督训练。

监督训练是指使用标注好的数据来训练ML算法的过程,而获取这些标注数据通常成本高昂且耗时较长。

早期的深度学习研究主要依赖监督学习,在自监督学习中,模型不需要人工标注的标签,而是可以直接从输入数据中自行推断标签。

语言建模就是一种自监督学习,因为每个输入序列同时提供了标签(待预测的token)和用于预测这些标签的上下文。

由于文本序列随处可见—书籍、博客文章、新闻报道以及Reddit评论等,因此可以构建大量的训练数据,使语言模型能够扩展为大语言模型(LLM,Large Language Model)。

多模态大模型

长期以来,AI研究一直按照数据模态划分:自然语言处理只处理文本,计算机视觉只处理视觉,纯文本模型可用于翻译和垃圾邮件检测等任务,纯图像模型可用于目标检测和图像分类,纯音频模型则可用于语音识别(语音转文本,speech-to-text,STT)和语音合成(文本转语音,text-to-speech,TTS)。

能够处理多种数据模态的模型称为多模态模型(multimodal model)。

作为人类,我们不仅通过语言文字,还通过视觉、听觉、触觉来感知世界。

所以,模型的能力没有停留在语言,而是发展为多模态大模型(large multimodal model,LMM)。

应用场景

可以用AI做什么,它可以参与你的工作和生活到什么地步?

由于基础模型具有通用性,基于这些模型构建的应用可以解决多种问题。这意味着一个应用可能属于多个类别。例如,一个机器人既可以提供陪伴,也可以聚合信息;一个应用可以帮助你从PDF中提取结构化数据,同时还能回答关于该PDF的问题。

最为颠覆的是,以往需要专业人员才能做的,现在你口头描述,它就能帮你做到70甚至80分以上(本系列文章封面均出自AI),以往需要几个小时才能完成的,现在几分钟就能完成,顶多需要你给一些修改意见。

总结一句话:上能打破行业壁垒,下能承担“脏活累活”

好的,本篇文章就到这里,欢迎在评论区告诉我们,你日常会用AI做什么,它给你的生活带来哪些改变?

更多文章第一时间接收,可关注公众号:“前端说书匠