线性回归 (linear regression)
基于几个简单的假设:首先,假设自变量 x 和因变量 y 之间的关系是线性的,
即 y 可以表示为 x 中元素的加权和,通常允许包含观测值的一些噪声;
其次,假设任何噪声都比较正常,如噪声遵循正态分布。
线性模型
损失函数
梯度下降(gradient descent)
通过不断地在损失函数递减的方向上更新参数来降低误差。
但有时时间成本太大
故采用小批量随机梯度下降(minibatch stochastic gradient descent)
|B| 表示每个小批量中的样本数,也称为批量大小(batch size)。
η 表示 学习率(learning rate)。
批量大小和学习率的值通常是手动预先指定,而不是通过模型训练得到的。
这些可以调整但不在训练过程中更新的参数称为 超参数(hyperparameter)。
调参(hyperparameter tuning) 是选择超参数的过程。
超参数通常是我们根据训练迭代结果来调整的,而训练迭代结果是在独立的验证数据集(validation dataset)上评估得到的。
更好的线性模型讲见此
batch_size、epoch、iteration是深度学习中常见的几个超参数:
(1)batchsize: 每批数据量的大小。DL通常用SGD的优化算法进行训练,也就是一次(1 个iteration)一起训练batchsize个样本,计算它们的平均损失函数值,来更新参数。
(2)iteration:1个iteration即迭代一次,也就是用batchsize个样本训练一次。
(3)epoch: 1个epoch指用训练集中的全部样本训练一次,此时相当于batchsize 等于训练集的样本数。