Day6 学习日志:从架构细节到对齐
日期:2026-03-20
定位:在 Day5「参数量账本」之上,补齐训练/推理中的关键机制与对齐链路。
一、昨日回顾(Day5 要点)
昨天(2026-03-19)把 GPT-3 约 175B 从矩阵维度「算清楚」了,核心是:
| 要点 | 内容 |
|---|---|
| 配置 | (d_{model}=12288),96 层 Decoder,96 头,(d_{head}=128) |
| 单层公式 | 约 (12 \times d_{model}^2):Attention 占约 1/3((W_Q,W_K,W_V,W_O)),FFN 占约 2/3(升维 4× 再降回) |
| 总量级 | 单层 (\approx 18.1) 亿 × 96 层 + Embedding (\approx) 175B |
| 直觉 | Attention 管「谁和谁相关」,FFN 管「记什么」;FP16 下仅权重就约 350GB 量级 |
| 顺带 | 点乘与 (\cos\theta)、Q/K 维对齐、预训练 → SFT → 偏好对齐的大致生命周期 |
今天在此基础上,往 更细的工程机制(归一化、缩放、词表头、采样)和 对齐后半段(RM、PPO、DPO 趋势)下沉一层。
二、今日精读:架构里的「呼吸与温控」
1. Add & Norm:深层网络能训稳的底线
- 残差 Add:(Output = x + f(x))。相当于给梯度留「高速公路」——即便当前子层 (f) 学得不好,信号 (x) 仍能直通,缓解深层 梯度消失。
- Layer Norm:把激活拉回稳定尺度,避免连乘后数值爆炸或塌缩,训练更稳。
二者常被说成 Transformer 块的「呼吸与温控」:残差保通路,Norm 保数值秩序。
2. (\sqrt{d_k}):Softmax 前的「贫富调节」
- 点积随维度变大容易整体偏大,Softmax 会极度尖锐(几乎 one-hot),梯度在少数位置上饱和,模型难以学到「多种合理关注」。
- 除以 (\sqrt{d_k}) 把点积尺度拉回与维度无关的量级,让 Softmax 更平滑,保留可调空间,也更有「创造性」的余地(相对极端尖峰而言)。
三、今日精读:模型如何「开口说话」
1. Linear Head:从隐向量到词表
- 最后一层输出的是 (d_{model}) 维语义向量,不是某个汉字/ token。
- 词表投影矩阵(量级上 (d_{model} \times |V|),如 GPT-3 里与 50257 类词表对齐)把该向量与 全词表「原型向量」 做匹配,得到每个词的 logits(未归一化分数)。
2. 采样:同一 logits,不同「性格」
- Top-K / Top-P:不永远只取 argmax,而是在高分子集里再随机,输出更丰富。
- Temperature:温度高 → 分布更平 → 低概率 token 更容易被采到,更发散、更有梗;温度低 → 更保守、更像「标准答案」。
应用侧调 API 时,temperature、top_p 就是在动这一层概率几何。
四、今日精读:从 SFT 到 PPO(再瞥一眼 DPO)
1. 奖励模型 RM:学会「打分」
- 在 SFT 模型 backbone 上换头或加头,用 人类排序(如回答 A 优于 B)训练,使 好回答分数高于差回答(拉大 (r_A - r_B))。
- RM 本身不直接生成文本,是给策略模型提供 标量反馈信号。
2. PPO:带约束的策略更新
- 思路:策略(SFT 后的模型)在生成时「试探」,根据 RM 的回报调整参数。
- Advantage:若本次生成比基线更好,就加强这条轨迹;反之弱化。
- KL 惩罚:限制新策略相对参考模型(常为 SFT checkpoint)别飘太远,避免为刷分而产生怪异、不安全或分布外文本。
PPO 效果好但 重、难调;工业界不少场景在往 DPO(直接偏好优化) 等更简洁的对齐方法迁移。
3. 工程师视角的一句话
模型本质是在 高维空间里重排概率;参数要 能训稳、能对齐 才有用。做应用时,注意力 (O(n^2))、KV Cache、上下文长度对 延迟和账单 的影响,往往比多背一个公式更紧迫。
明日预告
开启 AI 应用实战方向:RAG 架构 与 Function Calling 。