数据预处理
定义内涵
用户从多种渠道收集的数据可能包含噪音,或是存在不一致、不完整等问题,无法直接 进行训练。为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理。数据预 处理是指在数据分析 之前,对数据进行的清洗、筛选、转换、特征选择和提取等一系列必要处理操作的过程。
技术背景
数据预处理的常见方法有数据清洗、数据转换、特征选择、数据降噪和数据增强。 数据清洗通常是指对收集得到的数据集通过丢弃重复数据、补全缺失数据、异常值处理 SecXOps 安全智能分析技术白皮书 022 等方式,清洗掉数据集里的脏数据,完成清洗过程。数据清洗旨在提高数据质量,数据清洗 的效果会直接影响到后续数据分析、模型预测的效率和准确率。 数据转换是将数据从一种形式转变为另一种形式的数据预处理方法。由于数据源的多样 性、数据的异构性、数据分析的要求等各种原因,在进行数据集成和管理之前,需要对数据 进行转换。数据转换根据需求对数据进行类型转换、语义转换、粒度转换、离散化、数据压 缩等操作,转换方式有平滑处理、泛化处理、合计处理、规格化处理等。 特征选择旨在筛选出给定数据集中与当前机器学习任务有关的特征。复杂数据中存在大 量特征,并非所有特征对模型任务都是有用的,去除不相关的特征能节省计算和存储开销, 降低过拟合风险,提高模型性能。常见的特征选择算法分为过滤法、包裹法和嵌入法,不同 的算法根据不同的观察变量和特征评分规则对特征进行筛选。 数据降噪对数据集中的噪声进行移除。噪声在实际数据中无法避免,噪声的存在会对模 型产生误导。常使用的数据降噪方法有聚类、降维、回归等。 数据增强旨在扩充有限的数据,增加训练样本的数量和多样性,进而提高模型的泛化能力。 根据在机器学习流程中适用的阶段,数据增强分为离线增强和在线增强,其中离线增强直接 对数据集采取增强操作,在线增强在获得批量数据后,对批量数据进行增强。常见的数据增 强方案有 AugMix[8],CutOut[9],MoEx[10],MaxUp[11],Mixup[12],CutMix[13] 等