神经网络——深度学习基础组件

173 阅读2分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第3天,点击查看活动详情

  • 数据预处理方法

  • 如何划分和处理你的数据集?
    • 数据划分
      • 三个子集尽可能同分布
      • 绝对不能数据泄露!!!
      • 数据较少的时候可以合并dev/test set
  • 数据标准化、归一化
      • 归一化(Normalization):将数据映射到[0,1]或者[-1,1]

      • 标准化(Standardization):将数据变换为均值为0,标准差为1的分布
  • 正确的初始化模型参数

    • 模型参数初始化目的
      • 加快模型收敛
      • 抑制梯度消失/爆炸
    • 两个典型的初始化方法
      • Xavier
      • Kaiming/He
  • 激活函数选择

    • 激活函数的作用:
      • 赋予神经网络非线性能力
        • 如果存在一个超平面完全分离H元素和M元素,则表示H,M线性可分
        • A线性可分 B线性不可分
    • 激活函数怎么做
    • 几种激活函数
      • sigmoid值域:[0-1]
      • tanh值域:[-1,1]双曲正切
      • relu:加快模型收敛的速度,用的最多
      • image (1).png
      • 不会用的时候可以用mish
  • 优化器选择

    • 局部、全局最优
      • 逼近最优解,
    • 优化器两大类型
      • 随机梯度下降系列:SGD
      • 自适应学习率系列:Ada
      • 缺点:学习率下降过快,导致收敛速度变慢
    • 加快收敛、抑制震荡
    • 优化器选择原则
      • 稀疏数据选择学习率自适应优化器
    • Normalization增强模型训练
      • 模型训练的理想输入
      • Internal Covariate Shift:ICS
      • 其他策略:
        • LayerNormalization:LN
        • InstanceNormalization:IN
        • GroupNormalization:GN
    • 使用正则提升模型表现

      • 过拟合、欠拟合
      • Regularization is the process of adding information in order to solve an ill-posed problem or to prevent overfitting. ---wikipedia
      • L1正则项
      • L2正则项
      • Dropout
        • 模型训练时,以X~b(n,p)“丢弃”神经网络节点
      • Data Augmentation:数据增广
        • 增广后的数据尽可能服从源数据的分布
      • Early Stopping: 早停