Python第三方库pandas-DataFrame(十一)

235 阅读2分钟

「这是我参与2022首次更文挑战的第11天,活动详情查看:2022首次更文挑战」。

昨天我们学习了pandas中的Series结构,今天来学习Dataframe。DataFrame是一个表格型的数据,就像我们熟悉的EXCEL一样。DataFrame很火,很多库都是用它来写的!

首先我们先创建一个DataFrame,DataFrame()函数的参数index的值就是相当于行索引;columns的值相当于列索引,它们默认都是从0开始分配的。

import pandas as pd

data = {'sex':['boy','gril'],
        'name':['fizz','kathy'],
        'age':[27,25]}
df = pd.DataFrame(data,index=[1,2],
                columns = ['name','sex','age'])
print(df)

运行结果如下:

image.png

这里我们介绍一下ndarray类型,也就是numpy的N维数组对象,通常我们在使用中,Pandas和numpy是同时使用的,将dataFrame 转化为ndarray类型的好处是我们可以直接进行切片使用。

那么如何将DataFrame转化为ndarry呢?其实也很简单,这里我们用到的是values方法。

import pandas as pd

data = {'sex':['boy','gril'],
        'name':['fizz','kathy'],
        'age':[27,25]}
df = pd.DataFrame(data,index=[1,2],
                columns = ['name','sex','age'])
print(df.values)
print(type(df.values))

我们可以对比一下dataframe跟ndarry的区别。

image.png

在数据量很大时,我们往往要看整个表格的数据,pandas也给了我们简便的方法,info:

df.info()

运行结果如下,我们可以看到行的数据类型等等的信息,有没有空值这样的:

image.png

还有一个很常用的就是显示前几行的数据,这个代码也很简单就是df.head()

image.png

一般默认是显示前五行,如果要该显示的行数,在后面加要显示的行数数字就行。而要显示最后五行,则是用df.tail(),也是默认最后五行~~

还有一个最常用的功能就是describe(),我们来看看她的效果!

image.png

它显示的是数据的数量、缺失值、最小最大数、平均值等统计类信息,在数据分析中很有用!