成本函数

用于量化模型预测结果与真实结果之间的差异

均方误差（Mean Squared Error, MSE）: $J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2$
其他比如：均值方根误差、平均绝对误差等

对数损失： $J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]$
分类问题中损失函数为什么取对数？在分类问题中，模型的输出是概率，表示输入数据属于某个类别的概率。对数损失函数是凸函数，对于优化算法（如梯度下降）来说，具有良好的性质，有助于找到全局最优解。这使得优化过程更稳定，更容易收敛。

梯度下降

通过最小化损失函数来寻找模型参数的最佳值。计算损失函数的梯度，逐步调整参数，使损失函数的值逐渐减小。

\frac{\partial J(\theta_0, \theta_1)}{\partial \theta_0} = \frac{1}{m} \sum_{i=1}^{m} \left( (\theta_0 + \theta_1 x^{(i)}) - y^{(i)} \right)

\frac{\partial J(\theta_0, \theta_1)}{\partial \theta_1} = \frac{1}{m} \sum_{i=1}^{m} \left( \left( (\theta_0 + \theta_1 x^{(i)}) - y^{(i)} \right) x^{(i)} \right)

\theta_0 = \theta_0 - \alpha \left( \frac{1}{m} \sum_{i=1}^{m} \left( (\theta_0 + \theta_1 x^{(i)}) - y^{(i)} \right) \right)

\theta_1 = \theta_1 - \alpha \left( \frac{1}{m} \sum_{i=1}^{m} \left( (\theta_0 + \theta_1 x^{(i)}) - y^{(i)} \right) x^{(i)} \right)

注意公式中是否带向量(箭头符号)

使梯度下降更快。数据预处理中的一个重要步骤，旨在将不同量纲的特征值调整到相同的尺度。

过拟和，高方差，欠拟合，高偏差。解决过拟合，更多数据，更少特征。

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta(x^{i}) - y^{(i)} \right)^2 + \lambda \sum_{j=1}^{n} |\theta_j|

带L2正则化的代价函数：

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2 + \frac{\lambda}{2} \sum_{j=1}^{n} \theta_j^2

J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left( h_\theta(x^{(i)}) - y^{(i)} \right)^2 + \lambda_1 \sum_{j=1}^{n} |\theta_j| + \frac{\lambda_2}{2} \sum_{j=1}^{n} \theta_j^2

Elastic Net正则化，结合了L1的稀疏性和L2的稳定性。