什么时候可以用零来估算缺失值?

97 阅读3分钟

用零代替缺失的数据有时是合理的

作者:Huey Fern Tay

与Greg Page合作

图片由。Andreas Breitling from Pixabay

缺失数据的出现有各种各样的原因。

当调查太长或问一些非常个人化的问题(如年收入、月支出)时就会出现这种情况。

它发生在机器故障的时候。

有时,它只是记录不一致的结果。

不管是什么原因,人们在填空之前应该仔细考虑。用估算的数据建立的模型可能会产生受新改变的数值影响很大的结果。

之前一个涉及缅因州一个名为龙虾乐园的虚构游乐园的例子中,我表明,通过观察售出的日票数量来估计一个室内游戏中心的收入是合理的,因为这两个因素有很强的线性关系。

但是另一个变量_'降水'_呢,它也含有缺失信息?推论在这种情况下是不适用的,因为降水并不取决于我们数据集中的因素,如一周中的几天或小吃店的销售收入。

图片由作者提供

处理缺失数据的一个合理方法是检查数据,看是否大部分时间都在下雨。毕竟,如果缅因州通常是干燥的,那么我们假设在我们的记录保存失败的那一天发生了下雨,这是不对的。

为了用R语言进行这种验证,我们使用_mfv()函数_,它代表 "最频繁值"。

medium.com/media/e5cef…

由于那年缅因州不常下雨,我们可以通过在这些单元格中插入零来解决缺失值的问题。

medium.com/media/622a9…

其他时候,简单地用零来自动替代缺失值可能是不合适的。例如,假设我们缺少下面几个月的美国煤炭消耗量的数值。

图片由作者提供

首先,用零代替意味着煤炭从该国的能源结构中神秘地消失了四个月!虽然数据集中的 "NA "确实令人沮丧,但如果我们认为这种消费根本没有发生,就会造成一个更大的问题。

其次,这种错误的替换会削弱多回归模型。请注意,当我们从0的归因到用已知月份的平均值进行归因时,模型强度的差异 - 调整后的R-squared立即从0.5135提升到0.8586。

图片由作者提供

图片由作者提供

虽然这里没有证明,但一个弱的多元回归模型会对预测的准确性产生负面的连锁效应。用这些估计做出的不准确的计划会在供应链上产生负面的 "涟漪效应"。我们再次看到,为什么在面临数据缺失时要谨慎行事。

在一天结束时,没有 "一刀切 "的NA归因解决方案。用零替换确实有其优点,但是和其他方法一样,背景很重要。归根结底,建模者需要了解数据集,理解问题,并能够针对特定的情况做出最佳决定。


什么时候可以用0来计算缺失值?原文发表于Towards Data Scienceon Medium,人们在这里通过强调和回应这个故事来继续对话。