数据预处理

187 阅读1分钟

  数据预处理是将原始数据进行处理,使其符合一定的标准,能够作为合法输入被运算的数据.常见的预处理方法有:

  1. 数据清理/数据清洗:清理掉残废的数据,如有缺失值,噪声,异常值等的数据,将其清洗掉.主要从数据对额完整性和准确性进行清洗.
  2. 数据集成:将多个小规模的样本集集成为一个大规模的样本集
  3. 数据变换:对数据的形状和值的取值范围进行变换
  4. 数据规约:对数据的特征进行提取,减小训练的任务量,加快训练.主要采用两种思路进行:
    1. 减少单个样本的大小:对单样本进行维度规约
    2. 减少需要进行训练的样本量

1. 问题数据

  原始的数据中,存在以下的一些问题:

 1. 数据量问题

 2. 维度灾难

 3. 数据完整性

 4. 异常数据

2. 数据清洗

3. 数据集成

4. 数据变换

1. 标准化(normalize)

  使用一定的规则,对数据的取值范围进行规范,将样本的值限制在指定的区间内.归一化 就是一种典型的标准化操作.

2. 离散化

3. 数值化

  将非数值的数据类型,如String,编码成数字.如在手写汉字识别中,label为汉字,非数值,不符合神经网络的输出类型.因此可以将汉字数值化,使其成为可以利用神经网络进行运算的类型.

1. one-hot编码

5. 数据规约