【机器学习课程】第三章特征工程 1.特征构造

365 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路

不犯错误的人不会尝试新事物。——爱因斯坦

【机器学习课程】第三章特征工程 1.特征构造

引言

在数据准备过程中,增加了数据质量检查环节,目的是让模型从高质量的数据中学到正确的知识,从而提升模型的性能,尽可能的降低“garbage in, garbage out”的状况。

如果说数据准备过程的质量分析是初步的筛查,那么特征工程就是专家检查。

数据工程就是从一个原始数据集中提取特征的过程,这些特征能很好的描述这些数据,在业务流程中可能具有巨大的贡献。

底层数据已经决定了模型预测能力的上限(100),模型用的特征是在逼近底层数据所决定的上限(90),而模型算法则是在逼近特征所决定的上限(80)。 特征提取的质量越高,所建立的模型对业务完成质量就越高。就好比找到的了影响问题解决的关键信息,模型性能,预测精度都会有很大提高。

特征工程主要包括:特征构造(Feature construction)、 特征选择(Feature Selection)、 特征提取( Feature Extraction)环节。

特征构造

特征构造: 利用底层数据加工构建出新的特征。以结构化的表格数据为例,一般使用特征交叉、分解原有的特征来创建新的特征。

特征构造的需要业务人员具有很强的观察能力和分析能力。

# 从数据的整理进行观察分析
data.shape 
data.isnull() 
data.info() 
data.describe()

# 从数据类别角度进行观察分析
data[data[label]==0].describe() #标签A 
data[data[label]==1].describe() #标签B

以糖尿病数据为例,空腹血糖>7.0mmol/L可诊断为糖尿病。

日期年龄性别血糖值
6月1日355.0
6月2日508.0
6月3日459.0
············

特征交叉 将性别和是否患有糖尿病组合:男糖尿病患者、女糖尿病患者。

特征分解 将时间信息分解得到年、月、日、季度、季节、等特征。

数值类型特征聚合 将年龄数值进行分段,0-10岁,10-20岁,... ... 按需要分段

文本类型特征聚合 天气状态:小雨、阵雨、---->雨天