在数据科学（Data Science）中，预处理数据有一个很关键的步骤就是数据的标准化。不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

为什么要归一化

归一化后加快了梯度下降求最优解的速度；

如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

归一化有可能提高精度；

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

没有做归一化时，求解的曲线:

没有做归一化时，求解的曲线.png

数据经过归一化后，求解的曲线:

归一化后的求解曲线.png

哪些机器学习算法不需要(需要)做归一化?

概率模型（树形模型）不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、SVM、LR、Knn、KMeans之类的最优化问题就需要归一化。

归一化的方法

标准差标准化（Standard Scale）

去均值和方差归一化。且是针对每一个特征维度来做的，而不是针对样本。

使得经过处理的数据符合标准正态分布，即均值为0，标准差为1，其转化函数为：

$x^* = \frac {x - \mu} {\sigma}$

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

Python实现：

使用numpy来实现一个矩阵的标准差标准化

import numpy as np
 
x_np = np.array([[1.5, -1., 2.],
                [2., 0., 0.]])
mean = np.mean(x_np, axis=0)
std = np.std(x_np, axis=0)
print('矩阵初值为：{}'.format(x_np))
print('该矩阵的均值为：{}\n 该矩阵的标准差为：{}'.format(mean,std))
another_trans_data = x_np - mean
another_trans_data = another_trans_data / std
print('标准差标准化的矩阵为：{}'.format(another_trans_data))

输出结果：

矩阵初值为：[[ 1.5 -1.   2. ]
 [ 2.   0.   0. ]]
该矩阵的均值为：[ 1.75 -0.5   1.  ]
 该矩阵的标准差为：[0.25 0.5  1.  ]
标准差标准化的矩阵为：[[-1. -1.  1.]
 [ 1.  1. -1.]]

sklearn提供了标准差标准化的API，使用StandardScaler可以实现上面用numpy实现的功能。

from sklearn.preprocessing import StandardScaler  # 标准化工具
import numpy as np
 
x_np = np.array([[1.5, -1., 2.],
                [2., 0., 0.]])
scaler = StandardScaler()
x_train = scaler.fit_transform(x_np)
print('矩阵初值为：{}'.format(x_np))
print('该矩阵的均值为：{}\n 该矩阵的标准差为：{}'.format(scaler.mean_,np.sqrt(scaler.var_)))
print('标准差标准化的矩阵为：{}'.format(x_train))

输出结果：

矩阵初值为：[[ 1.5 -1.   2. ]
            [ 2.   0.   0. ]]
该矩阵的均值为：   [ 1.75 -0.5   1.  ]
 该矩阵的标准差为：[0.25 0.5  1.  ]
标准差标准化的矩阵为：[[-1. -1.  1.]
                     [ 1.  1. -1.]]

可以发现，sklearn的标准化工具实例化后会有两个属性，一个是mean_（均值），一个var_（方差）。最后的结果和使用numpy是一样的。

min-max标准化（Min-Max Normalization）

也称为离差标准化，是对原始数据的线性变换，使结果值映射到[0 , 1]之间。转换函数如下：

$x^* = \frac {x - min} {max - min}$

其中max为样本数据的最大值，min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

在sklearn中的代码实现：


import numpy as np

X = np.array([[1., -1., 2.],

              [2., 0., 0.],

              [0., 1., -1.]])

min_max_scaler = preprocessing.MinMaxScaler()

X_minMax = min_max_scaler.fit_transform(X)

输出：

array([[ 0.5 , 0. , 1. ], 
          [ 1. , 0.5 , 0.33333333], 
          [ 0. , 1. , 0. ]])

找大小的方法直接用np.max()和np.min()就行了，尽量不要用python内建的max()和min()

机器学习 - 标准化 / 归一化

为什么要归一化

哪些机器学习算法不需要(需要)做归一化?

归一化的方法

标准差标准化（Standard Scale）

min-max标准化（Min-Max Normalization）