Day6 学习日志：从架构细节到对齐Day6 学习日志：从架构细节到对齐日期：2026-03-20 定位：在 Day5

Day6 学习日志：从架构细节到对齐

日期：2026-03-20
定位：在 Day5「参数量账本」之上，补齐训练/推理中的关键机制与对齐链路。

昨天（2026-03-19）把 GPT-3 约 175B 从矩阵维度「算清楚」了，核心是：

要点	内容
配置	(d_{model}=12288)，96 层 Decoder，96 头，(d_{head}=128)
单层公式	约 (12 \times d_{model}^2)：Attention 占约 1/3（(W_Q,W_K,W_V,W_O)），FFN 占约 2/3（升维 4× 再降回）
总量级	单层 (\approx 18.1) 亿 × 96 层 + Embedding (\approx) 175B
直觉	Attention 管「谁和谁相关」，FFN 管「记什么」；FP16 下仅权重就约 350GB 量级
顺带	点乘与 (\cos\theta)、Q/K 维对齐、预训练 → SFT → 偏好对齐的大致生命周期

今天在此基础上，往 更细的工程机制（归一化、缩放、词表头、采样）和 对齐后半段（RM、PPO、DPO 趋势）下沉一层。

残差 Add：(Output = x + f(x))。相当于给梯度留「高速公路」——即便当前子层 (f) 学得不好，信号 (x) 仍能直通，缓解深层 梯度消失。
Layer Norm：把激活拉回稳定尺度，避免连乘后数值爆炸或塌缩，训练更稳。

二者常被说成 Transformer 块的「呼吸与温控」：残差保通路，Norm 保数值秩序。

最后一层输出的是 (d_{model}) 维语义向量，不是某个汉字/ token。
词表投影矩阵（量级上 (d_{model} \times |V|)，如 GPT-3 里与 50257 类词表对齐）把该向量与 全词表「原型向量」 做匹配，得到每个词的 logits（未归一化分数）。

应用侧调 API 时，temperature、top_p 就是在动这一层概率几何。

在 SFT 模型 backbone 上换头或加头，用 人类排序（如回答 A 优于 B）训练，使 好回答分数高于差回答（拉大 (r_A - r_B)）。
RM 本身不直接生成文本，是给策略模型提供 标量反馈信号。

PPO 效果好但 重、难调；工业界不少场景在往 DPO（直接偏好优化） 等更简洁的对齐方法迁移。

模型本质是在 高维空间里重排概率；参数要 能训稳、能对齐 才有用。做应用时，注意力 (O(n^2))、KV Cache、上下文长度对 延迟和账单 的影响，往往比多背一个公式更紧迫。

开启 AI 应用实战方向：RAG 架构 与 Function Calling 。