赛题理解



EDA



-
训练集数据和测试集数据 查看下两者的分布是否大致一致(查看mean,std。。。), 也可以通过画图(通过对目标值Y的画图)。如果不一致,可能要考虑将训练集分布转换成和测试集一致。
-
回归模型中需要将分布转化为正态分布

-
缺失值处理,对缺失值敏感的模型(如LR)需要进行填补。(一般单作一类别)


-
skewness偏度
- skewness == 0 与正太分布偏度相同
- skewness < 0 为负偏或左偏,大头在左边
- skewness > 0 为正偏或右偏,大头在右边
-
Kurtosis峰度
- Kurtosis == 0 与正太分布相同
- Kurtosis > 0 比正态分布更陡(尖锐)
- Kurtosis < 0 比正态分布平缓
-
相关性分析,如果特征之间有明显的共线行为,则应该进行融合或这选择,特征与Y之间的关系越大,越要选择。

-
各特征的分布情况

-
特征之间的关系可视化

-
多变量互相关系回归可视化


-
类别特征分析unique

-
时序图 ---> 周期,振幅

-
直方图 ---> 分布
-
密度曲线图 ----> 概率密度函数(连续)

-
箱型图 ---> 数据异常,不同数据的分布比

像上面这种,几个特征都特别平的,就可以选择抛弃掉
-
小提琴图 ----> 可以看出某个值附近的频率,进化版箱型图



量化分析特征
相关性分析


最好的就是每个样本之间独立同分布,特征之间要求独立,要考虑到分类不平衡的问题(包括Y和特征的分类分布)