1 . sklearn是重要的python机器学习库。其实现了大多数的机器学习算法。其内置数据集在datasets
模块中,通过load_*
方法加载本地小数据集,或者通过fetch_*
下载大数据集(print(datasets.get_data_home())#可以看出下载到了用户目录下的scikit_learn_data文件夹
)。
如本人安装anaconda目录为D:\Anaconda3
,其文件存储如下:
如下为pycharm的帮助提示:
2 .
load_*
函数定义在/sklearn/datasets/base.py
中,该函数返回Bunch
类型,使用上和字典类似。更多详情可以参阅源码(pycharm中在调用处ctrl+鼠标左键
)。
3 . 本节代码:
from sklearn import datasets
import numpy as np
np.set_printoptions(threshold=np.inf)#避免print过多成省略号
print(datasets.get_data_home())#下载数据存放目录
boston=datasets.load_boston()
# print(boston.DESCR)
# 输出与`boston_house_prices.rst`内容相同
print(boston.feature_names)#属性名(不含标记名)
x,y=boston.data,boston.target#分别为属性值和标记
# print(boston.data.shape)
# print(y)
# print(len(y))
print(x)
print(len(x))