直方图将数据按箱进行分组,这是了解有关数据集中每个属性分布的最快方法。
下面显示的代码是一个Python脚本示例,用于创建Pima Indian Diabetes数据集的属性直方图,在这里,无涯教程将在 Pandas DataFrame上使用 hist()函数生成直方图,并使用 matplotlib 进行绘制。
from matplotlib import pyplot from pandas import read_csv path = r"C:\pima-indians-diabetes.csv" names = [preg, plas, pres, skin, test, mass, pedi, age, class] data = read_csv(path, names=names) data.hist() pyplot.show()
运行上面代码输出

上面输出显示它为数据集中的每个属性创建了直方图。由此无涯教程可以观察到年龄,pedi 和test属性可能具有指数分布,而质量和plas具有高斯分布。