特征工程

140 阅读1分钟

特征预处理

1.定义

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

2.内容

归一化

将原始数据映射到[0,1]之间

鲁棒性比较差,容易收到异常值影响,只适合小数据

from sklearn.preprocessing import MinMaxScaler
import pandas as pd

data = pd.read_csv("./data/dating.txt")
# 归一化处理
scaler = MinMaxScaler(feature_range=(0, 1))
# 容易收到异常点 只适合小数据场景
data = scaler.fit_transform(data[['milage', 'Liters', 'Consumtime']])

标准化

公式

定义

数据转化为均值为0,标准差为1到范围内。

scaler = StandardScaler()
# 容易收到异常点 只适合小数据场景
data = scaler.fit_transform(data[['milage', 'Liters', 'Consumtime']])

适合现在的数据场景