开启掘金成长之旅！这是我参与「掘金日新计划 · 12 月更文挑战」的第5天

一、本篇笔记重点内容：

二、详细知识点介绍

设置折线图的颜色、线型、标签、显示图例

ax1.plot(iris['sepal_length'], 'k--', label='sepal_length')
ax1.legend(loc='best')

设置散点图的颜色和线型

ax3.scatter(range(len(iris['petal_width'])),iris['petal_width'] , label= 'petal_width')
ax3.legend(loc='best')

绘制直方图并设置条形bin的个数

a = ax2.hist(iris['sepal_width'],bins =10, label='sepal_width')
ax2.legend(loc='best’)

箱线图

whis指定离群点分割线

 ax.boxplot(iris['sepal_length'], whis=2)

plt.title()设置标题

 plt.title('box plot’)

plt.ylable()设置坐标轴名称

 plt.ylabel('data content')

df1=DataFrame({'lkey':['b','b','a','c'], 'data1':range(4)})
df2=DataFrame({'rkey':['a','b','b','d'], 'data2':range(4)})

数据分组是数据分析过程中的一个重要环节例如

考虑数据集不均衡，关注数据集的类别所属问题

对于分类问题，在本身观测记录X的基础上，数据集还会添加一列字段数据y，表示观测记录的类别, 那么该标注数据集表示为(X, y)

非标注数据集适用于聚类问题，通过学习算法，来获取事先未知的类别信息

在Logistic回归分类问题中，针对每一个要分类的数据记录，使用Simgod函数作为激励函数，输出一个对应的数值y，作为判定类别的概率

在阈值移动方法中，预先设置阈值a 如果y > a，数据归属类A 反之，数据归属类B

为解决数据不均衡，可以改变阈值来调节数据集中类别的比例，适当增加少数类样本的数量