每当你拟合一个一般的线性模型(如逻辑回归、泊松回归等)时,大多数统计软件都会产生模型的无效偏差和残差偏差的 值。
空偏差告诉我们只有截距项的模型对响应变量的预测程度。
残差告诉我们,有p个预测变量的模型对响应变量的预测效果如何。该值越低,模型就越能预测响应变量的值。
为了确定一个模型是否 "有用",我们可以计算Chi-Square统计量:。
X2= 空白偏差 - 残差偏差
有p个自由度。
然后我们可以找到与这个Chi-Square统计量相关的P值。p值越低,与只有截距项的模型相比,该模型对数据集的拟合效果越好。
下面的例子显示了如何解释R语言中逻辑回归模型的空值和残差。
例子。解释空值和残差
在这个例子中,我们将使用ISLR包中的Default数据集。我们可以使用下面的代码来加载和查看数据集的摘要。
#load dataset
data <- ISLR::Default
#view summary of dataset
summary(data)
default student balance income
No :9667 No :7056 Min. : 0.0 Min. : 772
Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340
Median : 823.6 Median :34553
Mean : 835.4 Mean :33517
3rd Qu.:1166.3 3rd Qu.:43808
Max. :2654.3 Max. :73554
这个数据集包含10,000个个体的以下信息。
- **default:**表示一个人是否违约。
- **学生。**表示一个人是否是学生。
- **余额。**个人携带的平均余额。
- **收入。**个人的收入。
我们将使用学生身份、银行余额和收入来建立一个逻辑回归模型,预测特定个体违约的概率。
#fit logistic regression model
model <- glm(default~balance+student+income, family="binomial", data=data)
#view model summary
summary(model)
Call:
glm(formula = default ~ balance + student + income, family = "binomial",
data = data)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.4691 -0.1418 -0.0557 -0.0203 3.7383
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 **
income 3.033e-06 8.203e-06 0.370 0.71152
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5
Number of Fisher Scoring iterations: 8
我们可以观察到输出中的空值和残差值如下。
- 空值偏差:2920.6,df = 9999
- 残差:1571.5,df = 9996
我们可以用这些值来计算模型的X2统计量。
- X2= 无效偏差 - 残差偏差
- X2 = 2910.6 - 1579.0
- X2= 1331.6
有p=3个预测变量的自由度。
我们可以用Chi-Square to P-Value计算器发现,3个自由度的X2值为1331.6,其P值为0.000000。
由于这个P值远远小于0.05,我们可以得出结论,该模型对于预测某个人违约的概率非常有用。
其他资源
下面的教程解释了如何在R和Python中进行逻辑回归的实践。
如何在R中进行Logistic回归
如何在Python中进行Logistic回归
The postHow to Interpret Null & Residual Deviance (With Examples)appeared first onStatology.