这是我参与「第四届青训营」笔记创作活动的第13天
掌握绘图基础语法与常用参数
掌握pypot基础语法
大部分的pyplot图形绘制都遵循一个流程,使用这个流程可以完成大部分图形的绘制。pyplot基本绘图流程主要分为3个部分,如下所示。
- 创建画布与创建子图
- 添加画布内容
- 保存与显示图片
数据类型
根据数据分析的要求,不同的应用应采用不同的数据分类方法。根据数据模型,我们可以将数据分为浮点数、整数、字符等;根据概念模型,可以定义数据为其对应的实际意义或者对象。在科学计算中,通常根据测量标度将数据分为四类:类别型数据、有序型数据、区间型数据和比值型数据。
- 类别型数据:用于区分物体。例如,根据性别可以将人分为男性或者女性;商品可按用途、原材料、生产方法、化学成分、使用状态等进行不同的分类。这些类别可以用来区分一组对象。
- 有序型数据:用来表示对象间的顺序关系,如成绩排名、身高排序等。
- 区间型数据:用于得到对象间的定量比较。相对于有序型数据,区间型数据提供了详细的定量信息。例如,身高 160cm 与身高 170cm 相差 10cm,而 170cm 与 180cm 也相差10cm,它们俩的差值是相等的。由此可见,区间型数据基于任意的起始点,只能衡量对象间的相对差别。
- 比值型数据:用于比较数值间的比例关系,可以精确地定义比例。比如,2 班的学生数量是 1 班的 2 倍(2∶1)。 不同的数据类型对应着不同的集合操作和统计操作: 通常并不区分区间型数据和比值型数据,所以可以将数据类型精简为三种:类别型数据、有序型数据和数值型数据(包括区间型数据和比值型数据)。
数据预处理
数据预处理的目的是提升数据质量,使得后续的数据处理、分析、可视化过程更加容易、有效。数据质量体现在以下六个方面:
数据对象与属性类型
•数据对象
•现实生活中常见的数据集合包括各种表格、文本语料和社会关系网络等。这些数据集合由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,数据对象可以是顾客、商品或销售。
•通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。
•如果数据对象存放在数据库中,则它们是记录(元组)。也就是说,数据库的行对应于数据对象,而列对应于属性。
属性
•属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”,而统计学家则更愿意使用术语“变量”。数据挖掘和数据库的专业人士一般使用术语“属性”。
•一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的(类别型)、二元的、序数的或数值的。
属性类型
属性可分为标称、二元、序数和数值类型。
1.标称属性
•标称属性(类别型属性)的值是一些符号或事物的名称。举个标称属性的例子。假设hair_color(头发颜色)是描述人的属性,可能的值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。
2.二元属性
•二元属性是一种标称属性特例,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,二元属性又称布尔属性。
•举个二元属性的例子。倘若属性smoker表示患者对象,1表示患者抽烟,0表示患者不抽烟。
3.序数属性
序数属性是一种有序型属性,其可能的值之间具有有意义的序或等级。
举个序数属性的例子。例如高校教师职称等级,对于教师有助教、讲师、副教授和教授。
4.数值属性
数值属性是定量的,即它是可度量的量,用整数或实数值表示。例如长度、重量、体积、温度等常见物理属性。数值属性又可以分为区间型数值属性和比值(比率)型数值属性。
数据的基本统计描述
基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。
• 中心趋势度量
中心趋势度量包括均值、中位数、众数。
1、均值
数据集的中心,令 x1,x2,⋯,xn 为某数值属性 X 的 N 个观测值或观测,则集合的均值为:
X¯=∑i=1NxiN
若数据集的取值不均匀,假设 p{X=xi}=pi,i=1,⋯,N
则X¯=∑i=1NpixiN
实际上为数学期望。
2.中位数
中位数(又称中值Median)。对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据值的中间值。它是把数据较高的一半与较低的一半分开的值。
•例如找出这组数据:23、29、20、32、23、21、33、25 的中位数。(先排序,再查找,24,第四,五个数的平均)
•中位数可以用来评估数值数据的中心趋势。
3.众数(Mode)
众数是另一种中心趋势度量。众数是集合(一组数据)中出现最频繁的值。因此求一组数据的众数不需要排序,而只要计算出现次数较多的那个数值。众数可能不唯一,具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。例如:
•1、1、2、3、3、4、4、4、7、8、8、9的众数为4;
•1、2、3、3、3、4、4、5、5、5、7、8的众数为3和5。