数据预处理是将原始数据进行处理,使其符合一定的标准,能够作为合法输入被运算的数据.常见的预处理方法有:
- 数据清理/数据清洗:清理掉残废的数据,如有缺失值,噪声,异常值等的数据,将其清洗掉.主要从数据对额完整性和准确性进行清洗.
- 数据集成:将多个小规模的样本集集成为一个大规模的样本集
- 数据变换:对数据的形状和值的取值范围进行变换
- 数据规约:对数据的特征进行提取,减小训练的任务量,加快训练.主要采用两种思路进行:
- 减少单个样本的大小:对单样本进行维度规约
- 减少需要进行训练的样本量
1. 问题数据
原始的数据中,存在以下的一些问题:
1. 数据量问题
2. 维度灾难
3. 数据完整性
4. 异常数据
2. 数据清洗
3. 数据集成
4. 数据变换
1. 标准化(normalize)
使用一定的规则,对数据的取值范围进行规范,将样本的值限制在指定的区间内.归一化 就是一种典型的标准化操作.
2. 离散化
3. 数值化
将非数值的数据类型,如String,编码成数字.如在手写汉字识别中,label为汉字,非数值,不符合神经网络的输出类型.因此可以将汉字数值化,使其成为可以利用神经网络进行运算的类型.