数据清洗和特征工程

741 阅读1分钟

[TOC]
EDA和特征工程其实不能完全分开

数据清洗

通过箱型图分析删除异常值

BOX-COX转换(处理有偏分布)

线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为Box—Cox变换。
将长尾分布转化为正态分布
长尾截断相当于上面的箱型图删除异常值,通过删除掉频率特别小的而得到类似于正太分布图像。

分布转换

涉及到概率的模型,例如贝叶斯,LR,KNN,Kmeans适合做分布转换
要注意保持训练集和测试集分布一致
不是所有非正太分布都要转换成正态分布,比如说泊松分布,卡方分布。偏态分布(偏度,峰度)才是最应该做分布转换的
blog.csdn.net/lamusique/a…

特征工程

特征构造

特征组合/交叉

  • FM模型(factorization model):

特征选择

  • lasson回归选择特征(特征稀疏)
  • LVM: 算法执行过程随机选择下一步

blog.csdn.net/cymy001/art… 自动特征选择

如果类别特征较多,可以用catboost选择

类别不平衡

尽量不用PCA,会损失信息