[TOC]
EDA和特征工程其实不能完全分开
数据清洗
通过箱型图分析删除异常值
BOX-COX转换(处理有偏分布)
线性回归模型满足线性性、独立性、方差齐性以及正态性的同时,又不丢失信息,此种变换称之为Box—Cox变换。
将长尾分布转化为正态分布
长尾截断相当于上面的箱型图删除异常值,通过删除掉频率特别小的而得到类似于正太分布图像。
分布转换
涉及到概率的模型,例如贝叶斯,LR,KNN,Kmeans适合做分布转换
要注意保持训练集和测试集分布一致
不是所有非正太分布都要转换成正态分布,比如说泊松分布,卡方分布。偏态分布(偏度,峰度)才是最应该做分布转换的
blog.csdn.net/lamusique/a…
特征工程
特征构造
特征组合/交叉
- FM模型(factorization model):
- 应用于高度稀疏的场景下(如推荐系统)
- 适用于数值型特征
- 时间复杂度为线性
- www.youtube.com/watch?v=EBR… 奉上地址
特征选择
- lasson回归选择特征(特征稀疏)
- LVM: 算法执行过程随机选择下一步
blog.csdn.net/cymy001/art… 自动特征选择
如果类别特征较多,可以用catboost选择
类别不平衡
尽量不用PCA,会损失信息