本文已参与「新人创作礼」活动,一起开启掘金创作之路
不犯错误的人不会尝试新事物。——爱因斯坦
【机器学习课程】第三章特征工程 1.特征构造
引言
在数据准备过程中,增加了数据质量检查环节,目的是让模型从高质量的数据中学到正确的知识,从而提升模型的性能,尽可能的降低“garbage in, garbage out”的状况。
如果说数据准备过程的质量分析是初步的筛查,那么特征工程就是专家检查。
数据工程就是从一个原始数据集中提取特征的过程,这些特征能很好的描述这些数据,在业务流程中可能具有巨大的贡献。
底层数据已经决定了模型预测能力的上限(100),模型用的特征是在逼近底层数据所决定的上限(90),而模型算法则是在逼近特征所决定的上限(80)。 特征提取的质量越高,所建立的模型对业务完成质量就越高。就好比找到的了影响问题解决的关键信息,模型性能,预测精度都会有很大提高。
特征工程主要包括:特征构造(Feature construction)、 特征选择(Feature Selection)、 特征提取( Feature Extraction)环节。
特征构造
特征构造: 利用底层数据加工构建出新的特征。以结构化的表格数据为例,一般使用特征交叉、分解原有的特征来创建新的特征。
特征构造的需要业务人员具有很强的观察能力和分析能力。
# 从数据的整理进行观察分析
data.shape
data.isnull()
data.info()
data.describe()
# 从数据类别角度进行观察分析
data[data[label]==0].describe() #标签A
data[data[label]==1].describe() #标签B
以糖尿病数据为例,空腹血糖>7.0mmol/L可诊断为糖尿病。
| 日期 | 年龄 | 性别 | 血糖值 |
|---|---|---|---|
| 6月1日 | 35 | 男 | 5.0 |
| 6月2日 | 50 | 女 | 8.0 |
| 6月3日 | 45 | 女 | 9.0 |
| ··· | ··· | ··· | ··· |
特征交叉 将性别和是否患有糖尿病组合:男糖尿病患者、女糖尿病患者。
特征分解 将时间信息分解得到年、月、日、季度、季节、等特征。
数值类型特征聚合 将年龄数值进行分段,0-10岁,10-20岁,... ... 按需要分段
文本类型特征聚合 天气状态:小雨、阵雨、---->雨天