DataWhale共学深度学习-Task02：线性模型（深度学习教程1.2节）把输入的特征 x 乘上一个权重，再加上一个

把输入的特征 x 乘上一个权重，再加上一个偏置就得到预测的结果这样的模型称为线性模型（linear model）

1.2.1 分段线性曲线

以可以用分段线性曲线，去逼近任何的连续的曲线

用 Sigmoid 函数来逼近 Hard Sigmoid

证明

1.2.2 模型变形

Hard Sigmoid 可以看作是两个修正线性单元（Rectified Linear Unit，ReLU）的加总

超参数

Epoch 定义：Epoch是指整个训练数据集被完整地用来训练一次。影响：增加Epoch的数量可以使模型更充分地学习数据。然而，过高的Epoch可能导致过拟合，即模型在训练集上表现良好，但在测试集上表现不佳。设置：通常从较小的值开始（如10或50），随着训练进行监控损失变化并使用早停法（Early Stopping）来防止过拟合。
迭代次数 (Iterations) 定义：迭代次数是指在训练过程中模型权重更新的总次数，通常等于Epoch数乘以每个Epoch的批次数。影响：更多的迭代可以帮助模型更好地收敛，但也可能引发过拟合。设置：根据Epoch和批次大小推算，通常与Epoch数相结合进行调整。
批次大小 (Batch Size) 定义：批次大小是指每次传递给模型进行训练的数据样本数。影响：小批次可以使模型更新更加频繁，有助于更快收敛，但计算开销大；大批次则计算效率高，但可能导致收敛速度减慢和内存消耗增加。设置：一般从32、64或128开始，根据硬件条件和数据集规模进行调整。尝试多种大小，并观察验证集性能。
学习速率 (Learning Rate) 定义：学习速率是控制模型权重更新步伐的参数。影响：较高的学习速率可能导致模型不稳定，错过最优解；而过低的学习速率则可能使收敛速度过慢，甚至陷入局部最优。设置：通常可以从0.001、0.01等常见值开始，使用学习率调度器（如ReduceLROnPlateau）来动态调整。也可以考虑使用自适应学习率优化器（如Adam、RMSprop）。

关系：

Epoch 中的迭代次数：一个 Epoch 包含了多个迭代（iterations），每个迭代包含一个 Batch 的训练数据。Epoch 中的迭代次数等于（训练数据总样本数） /（Batch Size）。

原文链接：blog.csdn.net/weixin_5856…