11. 数据预处理

139 阅读1分钟
  1. 缺失值处理三种方式
    1. 直接使用(决策树中的缺失值)
    2. 抛弃
    3. 填充
  2. 缺失值填充
    1. 均值插补
      1. 可度量:均值
      2. 不可度量:众数
    2. 同类插补
      1. 利用层次聚类算法进行聚类,使用归属簇的均值作为填充
    3. 建模预测
      1. 使用机器学习算法
      2. 问题:
        1. 属性之间无关,则无法预测
        2. 属性之间相关,则是冗余属性
    4. 高维映射
      1. 如x(t)存在缺失值,且其余值存在k个取值,新增一个k+1维的向量(独热编码)。


    5. 多重插补

    6. 压缩感知和矩阵补全
      1. 压缩感知

      2. 矩阵补全
  3. 特征编码
    1. 特征二元化
    2. 独热编码

  4. 数据标准化、正则化
    1. 标准化

      1. 计算

    2. 正则化

      1. 计算

  5. 特征选择
    1. 原理

    2. 三种方式
      1. 过滤式选择

      2. 包裹式选择

      3. 嵌入式选择

  6. 稀疏表示和字典学习
    1. 稀疏表示

    2. 字典学习

  7. 学习器流水线