1/前言
sklearn中的datasets目录中,有很多已经准备好的数据,这是官方提供的,我们可以随意使用。
比如: boston房价, 糖尿病, 数字, Iris花。
也可以自己准备数据,例如用来训练线性回归模型的数据,可以用函数来生成。
例如,点击进入 boston房价 的数据,可以看到 sample 的总数,属性,以及 label 等信息。
如果是自己生成的数据,按照函数的形式,输入 sample,feature,target 的个数等等。
sklearn.datasets.make_regression(n_samples=100,
n_features=100,
n_informative=10,
n_targets=1,
bias=0.0,
effective_rank=None,
tail_strength=0.5,
noise=0.0,
shuffle=True,
coef=False,
random_state=None)[source]
2/sklearn实战线性回归
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
加载 boston房价 的数据,把特征存在 data_x,类别标签存在 data_y:
boston_data = datasets.load_boston()
data_x = boston_data.data
data_y = boston_data.target
print(data_x)
print(data_y)
x_train, x_test, y_train, y_test = train_test_split(data_x,data_y,test_size=0.3)
print(y_train)
print(y_test)
可以看到分开后的数据集,顺序也被打乱,这样更有利于学习模型
model = LinearRegression()
model.fit(x_train, y_train)
print(model.predict(x_test))
print(y_test)