EDA

195 阅读1分钟

赛题理解


EDA



  • 训练集数据和测试集数据 查看下两者的分布是否大致一致(查看mean,std。。。), 也可以通过画图(通过对目标值Y的画图)。如果不一致,可能要考虑将训练集分布转换成和测试集一致。

  • 回归模型中需要将分布转化为正态分布

  • 缺失值处理,对缺失值敏感的模型(如LR)需要进行填补。(一般单作一类别)

  • skewness偏度

    • skewness == 0 与正太分布偏度相同
    • skewness < 0 为负偏或左偏,大头在左边
    • skewness > 0 为正偏或右偏,大头在右边
  • Kurtosis峰度

    • Kurtosis == 0 与正太分布相同
    • Kurtosis > 0 比正态分布更陡(尖锐)
    • Kurtosis < 0 比正态分布平缓
  • 相关性分析,如果特征之间有明显的共线行为,则应该进行融合或这选择,特征与Y之间的关系越大,越要选择。

  • 各特征的分布情况

  • 特征之间的关系可视化

  • 多变量互相关系回归可视化


  • 类别特征分析unique

  • 时序图 ---> 周期,振幅

  • 直方图 ---> 分布

  • 密度曲线图 ----> 概率密度函数(连续)

  • 箱型图 ---> 数据异常,不同数据的分布比

    像上面这种,几个特征都特别平的,就可以选择抛弃掉

  • 小提琴图 ----> 可以看出某个值附近的频率,进化版箱型图


量化分析特征

相关性分析

最好的就是每个样本之间独立同分布,特征之间要求独立,要考虑到分类不平衡的问题(包括Y和特征的分类分布)

检验数据同分布

zhuanlan.zhihu.com/p/87838277

不错的文章

www.jianshu.com/p/6e18d21a4… 可视化