大模型到底是个啥?
你肯定听过这些词——大模型、LLM、参数量、Token、上下文窗口。
每个字都认识,连在一起就不知道在说什么。
这篇就是帮你把这些名词翻译成人话的。不搬公式,不讲论文,就聊一件事:大模型到底是个什么东西,它能干什么,不能干什么。
先回答最根本的问题:大模型是什么?
一句话:大模型就是一个读了超级多书的程序,你问它问题,它根据"读过的东西"猜一个最合理的回答。
注意,是"猜",不是"想"。
它不会思考,没有理解力,也不知道自己说的是对是错。它做的事情,本质上是:根据你给的前文,预测下一个最可能出现的词。然后基于这个词,再预测下一个。一个词一个词地往外蹦,直到蹦出一个完整的回答。
就这么简单。
你可能会说:就这?这也太简陋了吧?
确实是这么简陋的原理。但当你把这个"预测下一个词"的事情,用天文数字的文本来训练,用海量的参数来调整,效果就变得非常惊人。它看起来像是在"理解"你、在"思考",但其实它只是在做概率预测——只不过预测得太准了,准到让人以为它真的懂了。
参数量:大模型的"脑容量"
聊大模型,第一个绕不开的词就是"参数量"。你会看到各种新闻说"某某模型 7B 参数""某某模型 175B 参数"。
B 是什么?B 是 Billion,十亿。7B 就是 70 亿参数,175B 就是 1750 亿参数。
那参数到底是个啥?
你把它想象成一个超级大的调音台,上面有几百万、几十亿个旋钮。每个旋钮控制一个微小的权重,决定模型在预测下一个词的时候,该更偏向哪个方向。
训练的过程,就是不断调整这些旋钮——看了大量的文本后,模型慢慢知道"苹果"后面跟"手机"比跟"袜子"更合理,"今天天气"后面跟"不错"比跟"恐龙"更常见。这些"偏好"全部编码在那些旋钮的数值里。
所以参数量越大,意味着旋钮越多,模型能记住的"模式"就越复杂、越细致。
但注意,参数量大不等于在所有场景都更强。训练数据的质量、训练方法的好坏,同样重要。在某个垂直领域,一个经过针对性训练的 7B 模型,可以比通用 70B 模型表现得更好——因为小而精比大而泛更有优势。但在通用能力上,参数量的优势是实打实的,别指望 7B 能全面碾压 70B。
一句话总结:参数量就是大模型的"脑容量",越大能记住的模式越多,通用能力越强,但在特定领域小模型也可以很能打。
Token:大模型的"最小阅读单位"
你跟大模型聊天的时候,它会告诉你"本次对话消耗了 xxx Token"。这个 Token 是什么?
简单说,Token 就是模型处理文本的最小单位。
你可以把它理解成"词",但不完全是。不同模型的"切法"不一样——中文优化较好的模型(如 Qwen、ChatGLM),常见词通常就是一个 Token;而 GPT 系列用的分词器对中文没那么友好,"模型"这种常见词可能被切成"模"和"型"两个 Token。甚至标点符号也会占 Token。
为什么要搞这么复杂?因为不同语言的"词"长度差异太大了。英文一个词平均 5 个字母,中文一个字就是一个基本单位。如果统一按"词"来切,模型处理起来会很混乱。所以 Token 是一种折中方案——把文本切成模型能统一处理的小块。
几个有用的直觉(基于各模型官方Tokenizer的实际测试经验,非精确值):
- 中文:1 个汉字大约 1-2 个 Token(GPT 系列偏多,约 1.5-2;国产模型偏少,约 0.6-1),1000 个汉字大概消耗 600-2000 Token
- 英文:1 个单词大约 1-1.5 个 Token,整体比中文省 Token
- 代码:特别费 Token,因为符号多、缩进多
为什么你要关心 Token?因为大模型是按 Token 计费的。你发的 Prompt 越 Token 多,花的钱越多;模型回复的 Token 越多,花的钱也越多。同样一个问题,啰嗦地问和精炼地问,成本可能差好几倍。
一句话总结:Token 是大模型的"计价单位",也是它处理文本的最小颗粒。
上下文窗口:大模型的"短期记忆"
这是最容易让人踩坑的一个概念。
你跟大模型聊着聊着,突然发现它"忘了"你前面说过的话。不是它故意的,是它的上下文窗口满了。
上下文窗口,就是模型一次性能"看到"的文本长度上限。 你可以把它想象成一个固定大小的窗口——文本是一卷很长的纸带,模型只能看到窗口里的内容,窗户外面的,它看不到。
比如一个模型的上下文窗口是 8K Token,那意味着:你的提问 + 历史对话 + 模型的回答,加在一起不能超过 8K Token。超出的部分,模型就"看不见"了。
所以你遇到"模型忘事"的情况,大概率不是因为模型傻,是因为对话太长,前面的内容被挤出了窗口。
不同模型的窗口大小差别很大(截至 2026 年 5 月):
- 早期模型:4K-8K Token
- 主流模型:32K-128K Token
- 最新模型:200K 甚至更长(如 Google Gemini 系列支持 100 万+ Token)
窗口越大,模型能"记住"的上下文就越多。但大窗口也有代价——处理成本更高,推理速度更慢。
这也是为什么 RAG(检索增强生成)这么火——与其把一整本书塞进窗口,不如先找到相关段落,只把有用的部分喂给模型。这个我们后面专门讲。
一句话总结:上下文窗口是模型的"短期记忆容量",超出的内容它就看不见了。
大模型能干什么,不能干什么?
搞清楚上面几个概念后,你就能理解大模型的能力边界了。
它能做好的事
- 文本生成:写文章、写邮件、写代码,这是它的看家本领
- 文本理解:总结、分类、提取关键信息,做得相当不错
- 翻译和改写:语言之间的转换、风格调整,效果很好
- 知识问答:在训练数据覆盖的范围内,回答质量很高
- 代码辅助:写代码、找 Bug、解释代码,已经成了开发者的日常工具
它做不好的事
- 精确计算:它不是计算器,复杂的数学运算经常出错(不过现在很多模型支持调用计算器工具来弥补)
- 事实核查:它可能非常自信地给出错误答案(这就是"幻觉")
- 实时信息:训练数据截止之后发生的事,它不知道
- 长逻辑链:需要多步严格推理的问题,中间一步错就全错了
- 真正的理解:它不"理解"你说了什么,它只是预测最可能的回应
最重要的一点
大模型最大的坑不是它不能做什么,而是它在做错的时候看起来跟做对的时候一模一样。
它看起来总是一副自信满满的样子,即使是在胡说八道。你问它一个你不知道答案的问题,你很难判断它的回答到底靠不靠谱。
所以用大模型的核心原则是:它是一个需要你来判断对错的助手,不是一个可以盲信的权威。
小结
| 概念 | 一句话 |
|---|---|
| 大模型 | 读了很多书的程序,根据前文预测下一个词 |
| 参数量 | 脑容量,越大通用能力越强,但特定领域小模型也能打 |
| Token | 模型处理文本的最小单位,也是计价单位 |
| 上下文窗口 | 短期记忆容量,超出的内容模型看不见 |
常见误区
误区一:"大模型是在思考"
不是。大模型做的事情是"预测下一个最可能出现的词",不是在推理、不是在思考。它表现得像在思考,是因为训练数据太海量、参数太多,预测得足够准确。但本质上,它每次输出都是概率计算的结果。
误区二:"参数量越大就一定越好"
不一定。参数量决定了模型的容量上限,但能不能发挥出来取决于训练数据的质量和训练方法。行业共识是:同一家族内,参数量越大通用能力越强;但跨家族比较时,小模型经过针对性优化,在特定任务上可以超过大模型。
误区三:"上下文窗口 = 长期记忆"
上下文窗口是单次对话的短期记忆,关掉对话框就没了。它跟训练数据是两回事——训练数据是模型"一生"读过的东西,已经融进了参数里;上下文窗口是模型"现在"能看到的东西,对话结束就消失。
概念速查卡片
| 术语 | 英文 | 大白话 |
|---|---|---|
| 大模型 | LLM (Large Language Model) | 读了很多书的程序,靠预测下一个词来回答问题 |
| 参数量 | Parameters | 模型的"脑容量",单位 B = 十亿 |
| Token | Token | 模型处理文本的最小单位,也是计价单位 |
| 上下文窗口 | Context Window | 模型一次性能看到的文本长度上限 |
下一篇我们聊:AI 怎么"说话"的——Prompt、System Prompt、Temperature、Top-P 这些词到底啥意思,调参数到底在调什么。
这是「老开发的 AI 笔记」专栏的第 1 篇,用开发者听得懂的话讲 AI。觉得有用的话,点赞收藏走一波,后续持续更新。