人工智能学习教程笔记-5:数据清洗

347 阅读1分钟

文章部分内容参考自captainbed.net

[TOC]

数据清洗

数据清洗概述

数据对于算法来说,就好比石油对于汽车。但石油也是提炼于原油,需要花费很大的功夫进行开采、提炼。

同样,作为一名机器学习工程师,大量的时间就要用于清洗数据,把最原始的数据清理为我们的算法模型可以直接用来训练的数据。

常用手段

简单介绍几个数据清洗手段:

缩放特征值

指缩小特征值的范围,留下一些高价值的特征值,删除一些用处不是很大的特征值。其有点如下:

  • 使梯度下降算法更加迅速地收敛
  • 避免NaN陷阱(超出精度范围)
  • 帮助模型为特征确定合适的权重

清查

简单来说就是手动检查一遍所有的数据,现实生活中的数据往往会有很多问题。例如:

  • 遗漏值 例如,有人忘记为某个房屋的年龄输入值。
  • 重复样本 例如,服务器错误地将同一条记录上传了两次。
  • 不良标签。 例如,有人错误地将一颗橡树的图片标记为枫树。
  • 不良特征值。 例如,有人输入了多余的位数

很多研究生干的都是这个事。