scikit-learn学习笔记(一)内置数据集的使用

267 阅读1分钟

1 . sklearn是重要的python机器学习库。其实现了大多数的机器学习算法。其内置数据集在datasets模块中,通过load_*方法加载本地小数据集,或者通过fetch_*下载大数据集(print(datasets.get_data_home())#可以看出下载到了用户目录下的scikit_learn_data文件夹)。
如本人安装anaconda目录为D:\Anaconda3,其文件存储如下:
这里写图片描述
这里写图片描述
如下为pycharm的帮助提示:
这里写图片描述

2 .
load_*函数定义在/sklearn/datasets/base.py中,该函数返回Bunch类型,使用上和字典类似。更多详情可以参阅源码(pycharm中在调用处ctrl+鼠标左键)。
这里写图片描述
3 . 本节代码:

from sklearn import datasets
import numpy as np
np.set_printoptions(threshold=np.inf)#避免print过多成省略号

print(datasets.get_data_home())#下载数据存放目录

boston=datasets.load_boston()
# print(boston.DESCR)
# 输出与`boston_house_prices.rst`内容相同
print(boston.feature_names)#属性名(不含标记名)

x,y=boston.data,boston.target#分别为属性值和标记

# print(boston.data.shape)

# print(y)
# print(len(y))

print(x)
print(len(x))