从向量到文字：Transformer 的预测与输出（LM Head）在经过 $N$ 层 Decoder 的复杂思考（At

在经过 $N$ 层 Decoder 的复杂思考（Attention, MLP, MoE）后，模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。

一、核心产物：隐藏状态 (Hidden States)

当 Token 序列流经最后一层 Decoder 层后，在该位置产出的结果是一个高维稠密向量 $h_{last}$ 。

隐藏状态 $h_{last}$ 无法直接对应文字，必须通过一个巨大的线性变换矩阵 $W_{vocab}$ （即 LM Head）映射到词表空间。

线性投影得到的 $Logits$ 是一堆实数，需要通过 Softmax 函数 转化为概率分布。

$\text{P}(w_i) = \frac{e^{L_i}}{\sum_{j=1}^{V} e^{L_j}}$

模型并不总是选择概率最高的那一个，而是根据**解码策略（Decoding Strategy）**来挑选最终的 Token ID。

Temperature (温度调节)：
- 低温度 (< 1.0)：让分布更“尖锐”，高概率词更突出，模型表现得更严谨、确定。
- 高温度 (> 1.0)：让分布更“平滑”，增加低概率词被选中的机会，模型表现得更有“创造力”甚至胡言乱语。
Top-P (核采样)：只在累计概率达到设定阈值（如 0.9）的候选词集中进行采样，过滤掉概率极低的长尾噪声。
Greedy Search (贪婪搜索)：每次雷打不动地选概率最高的词。

一旦确定了最终选出的 Token：

这就是“自回归”的含义：模型每生成一个词，都是在为预测下一个词制造新的背景。

在推理时，由于词表 $V$ 往往非常大（10万+），LM Head 的计算量在最后一层占据了很大比例。在分布式部署中，这部分计算通常会进行张量并行（Tensor Parallelism）拆分，以减轻显存负担。