人人都能懂的大模型 · 第5期:什么是大语言模型?一个读了全世界书的学霸

0 阅读8分钟

人人都能懂的大模型 · 第5期:什么是大语言模型?一个读了全世界书的学霸

这是一套专为零基础读者打造的“大模型入门指南”。在这里,我们不聊深奥的算法公式,只聊生活中的常识。我是你的科普向导,今天我们要正式介绍这个系列的主角——大语言模型(LLM)。


1. 它是谁?一个有“怪癖”的超级学霸

小明最近很苦恼,他发现邻居阿模(那个方头方脑的机器人)突然变得无所不知。你问他唐诗宋词,他张口就来;你让他写段代码,他指尖如飞;甚至你失恋了找他倾诉,他都能温柔地给你熬一锅心灵鸡汤。

阿模现在的身份,就是我们常说的大语言模型(LLM)。你可以把他想象成一个超级学霸,他利用超强的记忆力,读完了互联网上几乎所有的网页、背下了全世界图书馆里的书、甚至连各种冷门的百科全书和陈年论坛贴吧都没放过。

但他有个奇怪的“职业病”:当你问他问题时,他并不是像翻字典一样去查找标准答案,而是根据一种极强的“语感”来给你回话。这种语感从哪来?这就得归功于他那深不可测的“阅读量”——他读过的文字数据量通常以 TB 为单位计算。

配图

2. 揭秘本质:一场永无止境的“猜词游戏”

很多人觉得大模型有灵魂,其实阿模的内心活动非常单纯。大语言模型的所有聪明才智,本质上都源于一个简单的逻辑:根据前面的话,猜下一个字是什么。

这就像我们小时候玩的接龙。如果我说:“今天天气真____”,你的大脑会自动跳出几个候选词。阿模也会这么做,但他会给每个词标上概率:

  • “好”:60%
  • “热”:20%
  • “冷”:15%
  • “差”:5%

阿模会选那个概率最高的词吐出来。好玩的是,当他吐出“好”字后,他的输入就变成了“今天天气真好”,接着他再根据这六个字去猜第七个字可能是“,”,然后猜第八个字是“适合”……就这样,一个字一个字地蹦,最后连成了一大段逻辑通顺的话。这种“自己生出字,再喂给自己继续猜”的过程,专业上叫自回归生成

配图

配图

3. “大”在哪里?数不尽的“调音旋钮”

既然只是猜词,为什么以前的电脑猜得驴唇不对马嘴,现在的阿模却能写诗呢?关键就在这个“大”字上。这里的“大”,指的主要是参数量

你可以把参数想象成收音机上的“旋钮”。老式收音机可能只有两个旋钮(音量和频率),调出来的声音很粗糙。而大模型就像一个拥有几千亿甚至上万亿个旋钮的超级调音台。

  • GPT-1:拥有1.17亿个旋钮(小苗级别)。
  • GPT-2:增加到了15亿个(小树级别)。
  • GPT-3:直接飙升到1750亿个(森林级别)!
  • 到了GPT-4,总参数量通常被认为达到了约 1.8万亿,它是通过一种叫作**混合专家模型(MoE)**的精巧架构来实现的,就像是把很多个领域的专家组合在一起工作。

旋钮越多,阿模对语言规律的刻画就越精细。他能记住不仅是“好”接在“天气真”后面,还能记住在不同的语气、不同的上下文背景下,该用哪个字最贴切。

配图

4. 算力与数据:阿模的“超级能量”

如果说参数是阿模脑子里的神经元连接,那么数据算力就是他的粮食和体力。

首先是大数据。阿模在训练期间简直是个“吞书狂魔”。他读过的 Common Crawl(互联网抓取数据集)包含了数以千亿计的网页,维基百科在他眼里只是一点小点心。他还要研读数以千万计的 GitHub 代码仓库、数百万本电子书以及各种专业学术期刊。这些数据总量达到几十个 TB。对于人类来说,即便不眠不休地读上几千年,也读不完阿模一周的“功课”。正是这些包罗万象的信息,让他具备了跨学科对话的基础。

其次是大算力。想让阿模消化掉这么多书,普通家用电脑是绝对跑不动的。阿模的诞生需要在大规模的数据中心里,依靠上万张像 H100/H200 这样顶级性能的 GPU(图形处理器,也就是我们常说的显卡)协同工作。这些 GPU 没日没夜地运转几个月,消耗的电力甚至能供应一个小城镇,才最终锻造出了阿模的智能。

配图

5. 涌现能力:水开了,它突然“开窍”了

在研究大模型的过程中,科学家发现了一个神奇的现象:涌现

当阿模的参数量还比较小的时候,他表现得像个复读机,只会简单的填空。但是,当参数量突破一个临界点(比如达到百亿、千亿级)时,阿模就像突然打通了任督二脉,原本没教过他的能力突然出现了:他会做复杂的数学题了,会写程序代码了,甚至能理解冷笑话了!

这就像烧水。在90度、95度时,水依然是水;可一旦到了100度,水突然就变成了水蒸气。这种“量变引起质变”的瞬间,就是大模型的魅力所在。它不再仅仅是死记硬背文本概率,更是在大量练习中“悟”出了计算和推理的逻辑,尽管这种逻辑与人类的生理思考方式完全不同。

配图

6. 它是真懂吗?一个超强的模式匹配器

看到阿模对答如流,小明惊呼:“阿模,你一定是有灵魂的智者!”阿模却方头方脑地摇了摇头。

我们要明白一个真相:大模型并不是像人类一样通过“理解”世界的物理规律来学习的。他没有见过真正的苹果,也没有感受过重力。他之所以知道“苹果落地”是因为他在几万亿段文字里,看到过无数次这四个字连在一起出现。

虽然阿模的本质是一个超强的模式匹配器,在处理“3+5=8”这类问题时,他不仅在匹配概率,更是在大量练习中形成了某种内部的“逻辑电路”。但这种“理解”是高度依赖文本规律的。如果一个逻辑在他读过的书中从未出现过,他可能就会卡壳。

配图

7. 学霸的软肋:一本正经地胡说八道

虽然阿模很厉害,但他也有三个致命的软肋,这让他在某些时候显得像个“民科”:

  1. 幻觉(Hallucination):因为他是猜词,有时候为了凑出一个逻辑自洽的句子,他会编造事实。比如你问他某个不存在的成语,他可能会一本正经地给你编出一个古代典故。典型的例子如他可能会告诉你:“爱因斯坦发明了电灯,并在1945年获得了奥斯卡奖。”
  2. 知识过时:阿模的知识来自于他训练时的那堆书。如果他的训练截止日期是2024年,那么2025年刚发生的重大新闻,他完全不知道。
  3. 缺乏常识推理:他有时会犯一些常识错误,因为它并没有真正的身体和生活经验。

为了修理这些毛病,工程师们会采用 RLHF(人工反馈强化学习) 技术。简单来说,就是让人类充当“老师”,在阿模胡说八道时给他打低分,在表现良好时打高分,逼着他改掉随口撒谎的坏习惯。

配图

8. 进化之路:迈向现代多模态模型

回顾阿模的成长史,简直是一部开挂的奋斗史。从2018年那个只会简单补全句子的GPT-1,到2024年发布、在2025-2026年被广泛应用的各类现代多模态模型,阿模已经不仅仅会“看字”了。

现在的他,能够同时理解图像、处理复杂的音频、分析长达几个小时的视频,甚至具备了一定程度的自主规划和职业技能。他不再是一个单纯的“猜词机”,而是成为了一个能看、能听、能说、能思考的通用智能助手。

配图


下期预告: 阿模虽然读了全世界的书,但他并不是按“字”来读书的。在他的世界里,文字被拆解成了一块块像乐高积木一样的东西。这个神奇的东西叫什么?它是如何让电脑“读懂”文字的?下一期,我们聊聊大模型的最小基本单位——Token

配图