「这是我参与2022首次更文挑战的第11天,活动详情查看:2022首次更文挑战」。
昨天我们学习了pandas中的Series结构,今天来学习Dataframe。DataFrame是一个表格型的数据,就像我们熟悉的EXCEL一样。DataFrame很火,很多库都是用它来写的!
首先我们先创建一个DataFrame,DataFrame()函数的参数index的值就是相当于行索引;columns的值相当于列索引,它们默认都是从0开始分配的。
import pandas as pd
data = {'sex':['boy','gril'],
'name':['fizz','kathy'],
'age':[27,25]}
df = pd.DataFrame(data,index=[1,2],
columns = ['name','sex','age'])
print(df)
运行结果如下:
这里我们介绍一下ndarray类型,也就是numpy的N维数组对象,通常我们在使用中,Pandas和numpy是同时使用的,将dataFrame 转化为ndarray类型的好处是我们可以直接进行切片使用。
那么如何将DataFrame转化为ndarry呢?其实也很简单,这里我们用到的是values方法。
import pandas as pd
data = {'sex':['boy','gril'],
'name':['fizz','kathy'],
'age':[27,25]}
df = pd.DataFrame(data,index=[1,2],
columns = ['name','sex','age'])
print(df.values)
print(type(df.values))
我们可以对比一下dataframe跟ndarry的区别。
在数据量很大时,我们往往要看整个表格的数据,pandas也给了我们简便的方法,info:
df.info()
运行结果如下,我们可以看到行的数据类型等等的信息,有没有空值这样的:
还有一个很常用的就是显示前几行的数据,这个代码也很简单就是df.head()
一般默认是显示前五行,如果要该显示的行数,在后面加要显示的行数数字就行。而要显示最后五行,则是用df.tail(),也是默认最后五行~~
还有一个最常用的功能就是describe(),我们来看看她的效果!
它显示的是数据的数量、缺失值、最小最大数、平均值等统计类信息,在数据分析中很有用!