一句话版本
LLM 本质是在做:条件概率下的“下一个 token 预测”。
它不是在“理解”,不是在“思考”,不是在“查资料”。
它在做概率计算。
一、数学层面:它到底在优化什么?
语言模型的目标函数是:
P(wt∣w1,w2,...,wt−1)P(w_t | w_1, w_2, ..., w_{t-1})P(wt∣w1,w2,...,wt−1)
意思是:
在给定前面所有词的情况下,预测下一个词的概率。
训练时最大化的是整句概率:
P(w1,...,wn)=∏t=1nP(wt∣w<t)P(w_1, ..., w_n) = \prod_{t=1}^{n} P(w_t | w_{<t})P(w1,...,wn)=t=1∏nP(wt∣w<t)
换句话说:
它在做一个超大规模的“自动补全”。
二、直觉理解
如果我给你一句话:
北京是中国的首都,法国的首都是
你大脑会自动预测:
巴黎
模型做的是一样的事情,只不过:
- 它看过几万亿 token
- 它用的是 1000 亿参数
但本质没变 —— 预测。
三、那“理解”是怎么来的?
这是最容易误解的地方。
模型并没有显式的知识库。
它内部做的是:
- 把 token 映射成向量
- 用 Transformer 做上下文关系建模
- 输出概率分布
注意:它并不存“事实”,而是存“统计规律”。
四、为什么它看起来像在思考?
因为:
- 它学到了语言的结构
- 它学到了推理的模式
- 它学到了知识的共现关系
举个例子:
当你问:
一个苹果 3 元,买 5 个多少钱?
它不是“算术推理”。
它是:
- 在训练数据中见过无数类似表达
- 学到了“乘法”这种语言模式
五、temperature 到底在干嘛?
输出阶段会对 logits 做 softmax:
Pi=ezi/T∑jezj/TP_i = \frac{e^{z_i/T}}{\sum_j e^{z_j/T}}Pi=∑jezj/Tezi/T
当:
- T → 0:趋向最大概率(确定性)
- T → 高:分布变平(更随机)
这就是“创意”和“稳定”的来源。
六、它为什么会“幻觉”?
因为:
它优化的是“看起来像正确答案的概率”
而不是:
“真实世界是否正确”
如果训练数据里某种模式高频出现,它就更容易输出。
它没有“外部验证机制”。
七、为什么 RAG 会让它变聪明?
因为 RAG 不是让模型“记住知识”。
而是:
在预测时,把正确上下文塞进去。
于是预测条件变成:
P(answer∣context,question)P(answer | context, question)P(answer∣context,question)
上下文越精准,预测越准确。
八、从工程角度理解
LLM =
巨大概率分布机器
+ 上下文压缩器
+ 模式拟合器
作为应用架构工程师真正做的是:
- 控制上下文
- 控制概率空间
- 控制采样策略
- 控制信息输入质量
九、真正的核心认知
如果你记住一句话:
LLM 不会“思考”,它只是在高维空间里做概率逼近。
那你就理解了 80%。
十、进阶一点(架构视角)
开发 AI 应用,本质在做三件事:
- 给它更好的上下文(RAG)
- 限制它的输出格式(JSON / Schema)
- 降低概率不稳定性(temperature / rerank / 多模型)