首先定义一些概念:
样本数据集: {(x1, y1), (x2, y2), (x3, y3),.....,(xN, yN)}, 其中x1....xN为n为向量
经模型计算得到的预测值:
-
观测数据均值:
-
残差(residual)(与方差成比例):
-
总平方和(total sum of squares):
-
回归平方和,又称可解释平方和(regression/explained sum of squares):
-
残差平方和(residual sum of squares):
知晓以上概念后,可决系数(coefficient of determination)的定义如下:
为回归平方和与总平方和的比值,反映了自变量对因变量的可解释比例。
例如 ,表示自变量能够解释80%关于因变量的变化。