如何解释空值和残差（有例子）？每当你拟合一个一般的线性模型（如逻辑回归、泊松回归等）时，大多数统计软件都会产生模型的无效

每当你拟合一个一般的线性模型（如逻辑回归、泊松回归等）时，大多数统计软件都会产生模型的无效偏差和残差偏差的 值。

空偏差告诉我们只有截距项的模型对响应变量的预测程度。

残差告诉我们，有p个预测变量的模型对响应变量的预测效果如何。该值越低，模型就越能预测响应变量的值。

为了确定一个模型是否 "有用"，我们可以计算Chi-Square统计量：。

X2= 空白偏差 - 残差偏差

有p个自由度。

然后我们可以找到与这个Chi-Square统计量相关的P值。p值越低，与只有截距项的模型相比，该模型对数据集的拟合效果越好。

下面的例子显示了如何解释R语言中逻辑回归模型的空值和残差。

例子。解释空值和残差

在这个例子中，我们将使用ISLR包中的Default数据集。我们可以使用下面的代码来加载和查看数据集的摘要。

#load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default    student       balance           income     
 No :9667   No :7056   Min.   :   0.0   Min.   :  772  
 Yes: 333   Yes:2944   1st Qu.: 481.7   1st Qu.:21340  
                       Median : 823.6   Median :34553  
                       Mean   : 835.4   Mean   :33517  
                       3rd Qu.:1166.3   3rd Qu.:43808  
                       Max.   :2654.3   Max.   :73554

这个数据集包含10,000个个体的以下信息。

**default:**表示一个人是否违约。
**学生。**表示一个人是否是学生。
**余额。**个人携带的平均余额。
**收入。**个人的收入。

我们将使用学生身份、银行余额和收入来建立一个逻辑回归模型，预测特定个体违约的概率。

#fit logistic regression model
model <- glm(default~balance+student+income, family="binomial", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.4691  -0.1418  -0.0557  -0.0203   3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01  4.923e-01 -22.080  < 2e-16 ***
balance      5.737e-03  2.319e-04  24.738  < 2e-16 ***
studentYes  -6.468e-01  2.363e-01  -2.738  0.00619 ** 
income       3.033e-06  8.203e-06   0.370  0.71152    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6  on 9999  degrees of freedom
Residual deviance: 1571.5  on 9996  degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

我们可以观察到输出中的空值和残差值如下。

空值偏差：2920.6，df = 9999
残差：1571.5，df = 9996

我们可以用这些值来计算模型的X2统计量。

X2= 无效偏差 - 残差偏差
X2 = 2910.6 - 1579.0
X2= 1331.6

有p=3个预测变量的自由度。

我们可以用Chi-Square to P-Value计算器发现，3个自由度的X2值为1331.6，其P值为0.000000。

由于这个P值远远小于0.05，我们可以得出结论，该模型对于预测某个人违约的概率非常有用。

其他资源

下面的教程解释了如何在R和Python中进行逻辑回归的实践。

如何在R中进行Logistic回归
 如何在Python中进行Logistic回归

The postHow to Interpret Null & Residual Deviance (With Examples)appeared first onStatology.