Day4 学习日志：从“模型=公式”到“用拟合把数据穿起来”Day4 学习日志：从“模型=公式”到“用拟合把数据穿起来”

Day4 学习日志：从“模型=公式”到“用拟合把数据穿起来”

日期：2026-03-18
定位：AI 基础原理 + 一点点动手实践（拟合与可视化）

今日主线

今天我把学习拆成两条线并行推进：

基础原理线：模型是什么、拟合与优化、神经网络为何“线性 + 非线性”、以及 LLM 常见训练范式（Pretrain / SFT / RM / PPO 等）。
动手验证线：用一段最小可运行的 Python 代码，把“拟合”从概念变成可观察的输出和图形。

1）基础原理：模型、拟合、优化

ScreenShot_2026-03-18_202106_858

我今天最有感觉的一句话，是把“拟合”讲得非常像工程：

“拟合是给现实数据找一件‘数学衣服’的过程。通过调整参数（如 a,b），使数学公式产生的曲线与观测点的全局误差最小。欠拟合：模型太简单；过拟合：模型太复杂，把噪音当规律。”

这段话让我更容易把“拟合”放进一个完整的认知框架：

拟合（Fitting）：偏数学动作，目标是“找参数”。
建模（Modeling）：偏翻译动作，目标是“选公式、定假设”。
数据建模/工程建模：偏系统动作，目标是“让流程跑起来、能监控、能复现”。

另一个我反复记住的点是：很多 AI 的公式里会出现 (\ln)，它的“好用”不是玄学，而是它的数学性质更方便（例如求导、组合到损失函数里）。

“(\ln x) 底数为 e，在 AI 中用于损失函数（如交叉熵）和增长模型，因为其导数简单。Python 中 math.log(x) 默认是 (\ln x)。”

2）神经网络：为什么必须“线性 + 非线性”

最打动我的是对“模型”的一句定义——它不再是一个抽象名词，而是一个明确对象：数学公式。

“模型就是一个数学公式。设计模型，就是设计能解决真实问题的数学公式。”

材料里还给了一个特别贴近今天实践的例子：把“身长和体重”作为输入去分类动物。它让我意识到：我写的拟合脚本虽然做的是回归，但思路上和“把输入映射到输出”是一致的。

“输入：动物的身长和体重（需要判断是哪一种动物）……输出：经过一系列数学公式计算后，输出 n 个概率……”

我的理解是：
当真实世界的关系复杂到一条直线不够用时，我们需要“更强的函数族”。神经网络之所以强，是因为它通过线性变换（旋转/缩放）和非线性激活（折叠/弯曲）把表达能力堆起来，最终能逼近复杂关系。

3）语言模型训练范式：Pretrain → 对齐

关于 LLM 训练的阶段划分，今天我第一次在脑海里形成了“能复述出来”的顺序：GPT 常见是四段式，Llama 的后半段可能走不同顺序，并引入 DPO 等。

“GPT：1 Pretrain 2 SFT 3 Reward Model 4 PPO。Llama：1 Pretrain 2 Reward Model 3 Rejection Sampling 4 SFT 5 DPO。”

我把它简化成今天能记住的版本：

Pretrain：学语言的“底层统计规律 + 世界知识”
SFT：学“如何按指令说话”（更像把输出格式和意图对齐到人类）
Reward Model / PPO（或 DPO）：学“人类更喜欢什么样的回答”（对齐偏好）

这条线虽然离“写代码”看起来远，但它解释了我在使用模型时的很多现象：
为什么有的模型知识面广但不听话、有的模型听话但幻觉更重、有的模型更擅长格式化输出。

4）一点实践：用拟合把“概念”落地

ScreenShot_2026-03-18_201940_001 今天我用“身长/体重”这组现实数据做了一个最小拟合闭环：

读取 CSV：把“身长(米)”放入 x，把“体重(公斤)”放入 y
设定模型：(y=ax+b)（先从最简单的线性回归开始）
curve_fit 拟合：得到最优 (a,b)
可视化：散点图 + 拟合线

核心代码很短，关键是把数据读成数组、定义模型、再拟合：

import numpy as np
from scipy.optimize import curve_fit

def linear_model(x, a, b):
    return a * x + b

# x: 身长(米)，y: 体重(公斤)
params, _ = curve_fit(linear_model, x, y)
a, b = params
print(f"y = {a:.2f}x + ({b:.2f})")

这一点动手给我一个非常直接的反馈：
“拟合”不是一句口号，它会产出可解释的参数（(a,b)），也会产出一张图，让我能直观看到“这条线到底贴不贴数据”。

以及，它也让我更诚实地看到模型的局限：
如果数据关系明显非线性，我硬用 (y=ax+b) 去套，得到的只是“一个折中答案”，这就对应了今天学到的“欠拟合”。

拟合寻找a和b

5）今天的收获（写给明天的我）

模型不是玄学：它首先是公式，其次才是代码与框架。
拟合是一种通用动作：从回归到神经网络训练，本质都是“找参数”。
工程视角更重要：能跑通、能观察、能复现，才是我这种从前端转过来的人最该守住的优势。