机器学习中数据归一化的几种方式

3,084 阅读1分钟

一.引言

归一化英文又叫normalization,包含几种常见的数据变换方式,在统计学和机器学习中有大量应用。

二.归一化几种方式

1.Rescaling (min-max normalization)

x=xminmaxminx^*= \frac{x - min}{max -min}

将分布归一到 [0,1] 区间。

2.Mean normalization

x=xmeanmaxminx^*= \frac{x - mean}{max -min}

3.Standardization (Z-score Normalization)

x=xmeanstdx^*= \frac{x - mean}{std}

4.Scaling to unit length

x=xxx^*= \frac{x}{||x||}

三.归一化示例

1.正态分布

1.1 均值为1,方差为3的正态分布

1.2 Rescaling

1.3 Mean normalization

1.4 Standardization

2.任意分布

2.1 任意分布

2.2 Rescaling

2.3 Mean normalization

2.4 Standardization

四.总结

1.Rescaling 可保证转换后数据的范围为[0,1]

2.Mean normalization 和 Standardization 可保证转换后数据均值为0。

3.Standardization 转换后分布的参数可能会变,但分布类型不会改变,更不一定就是正态分布(误区)。

五.参考

Feature_scaling-wiki

Normalization-wiki

Standard_score

标准化和归一化,请勿混为一谈,透彻理解数据变换