携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第3天,点击查看活动详情
-
数据预处理方法
-
如何划分和处理你的数据集?
-
数据划分
-
- 三个子集尽可能同分布
- 绝对不能数据泄露!!!
- 数据较少的时候可以合并dev/test set
-
-
-
数据标准化、归一化
-
-
归一化(Normalization):将数据映射到[0,1]或者[-1,1]
-
-
-
- 标准化(Standardization):将数据变换为均值为0,标准差为1的分布
-
-
-
正确的初始化模型参数
-
模型参数初始化目的
- 加快模型收敛
- 抑制梯度消失/爆炸
-
-
两个典型的初始化方法
- Xavier
-
- Kaiming/He
-
-
-
激活函数选择
-
激活函数的作用:
- 赋予神经网络非线性能力
- 如果存在一个超平面完全分离H元素和M元素,则表示H,M线性可分
- A线性可分 B线性不可分
- 赋予神经网络非线性能力
-
激活函数怎么做
-
几种激活函数
- sigmoid值域:[0-1]
- tanh值域:[-1,1]双曲正切
- relu:加快模型收敛的速度,用的最多
- 不会用的时候可以用mish
-
-
优化器选择
- 局部、全局最优
-
- 逼近最优解,
-
优化器两大类型
- 随机梯度下降系列:SGD
-
- 自适应学习率系列:Ada
-
- 缺点:学习率下降过快,导致收敛速度变慢
- 加快收敛、抑制震荡
- 优化器选择原则
- 稀疏数据选择学习率自适应优化器
- Normalization增强模型训练
- 模型训练的理想输入
-
- Internal Covariate Shift:ICS
- 其他策略:
- LayerNormalization:LN
- InstanceNormalization:IN
- GroupNormalization:GN
-
使用正则提升模型表现
- 过拟合、欠拟合
- Regularization is the process of adding information in order to solve an ill-posed problem or to prevent overfitting. ---wikipedia
-
L1正则项
-
-
L2正则项
-
-
Dropout
- 模型训练时,以X~b(n,p)“丢弃”神经网络节点
-
Data Augmentation:数据增广
- 增广后的数据尽可能服从源数据的分布
-
Early Stopping: 早停
-
- 局部、全局最优