如何解释空值和残差(有例子)?

235 阅读2分钟

每当你拟合一个一般的线性模型(如逻辑回归、泊松回归等)时,大多数统计软件都会产生模型的无效偏差残差偏差的 值。

空偏差告诉我们只有截距项的模型对响应变量的预测程度。

残差告诉我们,有p个预测变量的模型对响应变量的预测效果如何。该值越低,模型就越能预测响应变量的值。

为了确定一个模型是否 "有用",我们可以计算Chi-Square统计量:。

X2= 空白偏差 - 残差偏差

p个自由度。

然后我们可以找到与这个Chi-Square统计量相关的P值。p值越低,与只有截距项的模型相比,该模型对数据集的拟合效果越好。

下面的例子显示了如何解释R语言中逻辑回归模型的空值和残差。

例子。解释空值和残差

在这个例子中,我们将使用ISLR包中的Default数据集。我们可以使用下面的代码来加载和查看数据集的摘要。

#load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default    student       balance           income     
 No :9667   No :7056   Min.   :   0.0   Min.   :  772  
 Yes: 333   Yes:2944   1st Qu.: 481.7   1st Qu.:21340  
                       Median : 823.6   Median :34553  
                       Mean   : 835.4   Mean   :33517  
                       3rd Qu.:1166.3   3rd Qu.:43808  
                       Max.   :2654.3   Max.   :73554 

这个数据集包含10,000个个体的以下信息。

  • **default:**表示一个人是否违约。
  • **学生。**表示一个人是否是学生。
  • **余额。**个人携带的平均余额。
  • **收入。**个人的收入。

我们将使用学生身份、银行余额和收入来建立一个逻辑回归模型,预测特定个体违约的概率。

#fit logistic regression model
model <- glm(default~balance+student+income, family="binomial", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.4691  -0.1418  -0.0557  -0.0203   3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01  4.923e-01 -22.080  < 2e-16 ***
balance      5.737e-03  2.319e-04  24.738  < 2e-16 ***
studentYes  -6.468e-01  2.363e-01  -2.738  0.00619 ** 
income       3.033e-06  8.203e-06   0.370  0.71152    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6  on 9999  degrees of freedom
Residual deviance: 1571.5  on 9996  degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

我们可以观察到输出中的空值和残差值如下。

  • 空值偏差:2920.6,df = 9999
  • 残差:1571.5,df = 9996

我们可以用这些值来计算模型的X2统计量。

  • X2= 无效偏差 - 残差偏差
  • X2 = 2910.6 - 1579.0
  • X2= 1331.6

p=3个预测变量的自由度。

我们可以用Chi-Square to P-Value计算器发现,3个自由度的X2值为1331.6,其P值为0.000000。

由于这个P值远远小于0.05,我们可以得出结论,该模型对于预测某个人违约的概率非常有用。

其他资源

下面的教程解释了如何在R和Python中进行逻辑回归的实践。

如何在R中进行Logistic回归
如何在Python中进行Logistic回归

The postHow to Interpret Null & Residual Deviance (With Examples)appeared first onStatology.