11. 数据预处理 海盐味橘色汽水 2019-10-07 139 阅读1分钟 缺失值处理三种方式直接使用(决策树中的缺失值)抛弃填充缺失值填充均值插补可度量:均值不可度量:众数同类插补利用层次聚类算法进行聚类,使用归属簇的均值作为填充建模预测使用机器学习算法问题:属性之间无关,则无法预测属性之间相关,则是冗余属性高维映射如x(t)存在缺失值,且其余值存在k个取值,新增一个k+1维的向量(独热编码)。多重插补压缩感知和矩阵补全压缩感知矩阵补全特征编码特征二元化独热编码数据标准化、正则化标准化计算正则化计算特征选择原理三种方式过滤式选择包裹式选择嵌入式选择稀疏表示和字典学习稀疏表示字典学习学习器流水线