[机器学习_特征缩放]标准化和归一化归一化和标准化的区别：归一化是把各个特征值转换到同一量纲下，让特征之间具有可比性，

在机器学习中，标准化（Standardization）和归一化（Normalization）是两种常用的数据预处理技术，它们都属于特征缩放.

目的是调整数据分布或范围，使其更适合模型训练。虽然两者都涉及对数据的缩放，但它们的操作方式和适用场景有所不同。

1. 标准化（Standardization）

标准化通过调整数据分布，使其均值为0、标准差为1。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

示例：
假设某特征的原始数据为 [10, 20, 30, 40, 50]，计算均值为30，标准差为14.14。
标准化后数据为：
[-1.41, -0.71, 0, 0.71, 1.41]。

消除量纲影响：不同特征之间的量纲可能差异巨大（如年龄范围0-100，收入范围0-100万）。标准化使所有特征处于同一尺度，避免模型被大范围特征主导。
加速模型收敛：对梯度下降类算法（如逻辑回归、神经网络），特征尺度统一后，优化过程更稳定高效。
适配模型假设：许多模型（如线性回归、支持向量机）假设输入数据服从标准正态分布。

归一化将数据缩放到固定范围（通常是 [0, 1] 或 [-1, 1]）。

常用方法为最小-最大缩放（Min-Max Scaling）：

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

示例：
原始数据为 [10, 20, 30, 40, 50]，最小值为10，最大值为50。
归一化后数据为：
[0, 0.25, 0.5, 0.75, 1]。

特性	标准化	归一化
目标	数据分布均值为0，标准差为1	数据缩放到固定范围（如0-1）
公式	( (x - \mu)/\sigma )	( (x - x_{\text{min}})/(x_{\text{max}} - x_{\text{min}}) )
对异常值的鲁棒性	较敏感（均值和标准差受异常值影响）	非常敏感（极值会压缩正常数据的范围
适用模型	线性模型、距离类模型（SVM、KNN）	神经网络、需要固定输入范围的模型
数据分布假设	无严格假设，但对正态分布更友好	无分布假设

划分数据集后再操作：
应先拆分训练集和测试集，仅用训练集计算均值和标准差（或最小/最大值），再将其应用于测试集，避免数据泄漏（Data Leakage）。
树模型通常不需要：
树模型（如随机森林、XGBoost）基于特征划分而非距离计算，因此对特征尺度不敏感。
离散特征的例外：
二元特征（0/1）或计数特征（如点击次数）若范围差异不大，可不处理；但若与其他特征量纲差异显著（如收入 vs 点击次数），仍需缩放。

标准化和归一化是数据预处理的核心步骤，通过调整数据分布或范围，使模型更高效、稳定地学习规律。

选择哪种方法需结合数据分布、模型类型及业务需求，实践中常通过交叉验证对比效果。