Python数据分析之 Pandas Dataframe对象

386 阅读2分钟

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第7天,点击查看活动详情

之前的文章已经介绍了 Pandas Series数据结构及其操作,接下来就来介绍 Pandas 另一种数据结构 Dataframe。

DataFrame 是一种二维的表格型的数据结构,由行和列组成,既有行索引index,也有列索引columns,可以将其理解成存放Series对象的容器。

Dataframe 的创建

语法格式如下:

import pandas as pd

pd.DataFrame(data, index, columns)

常用参数说明:

  • data: 要存储的数据,可以是列表、字典、ndarray数组、Series对象,或者Dataframe也可以
  • index:行索引
  • columns:列索引
  • ···

下面通过具体代码了解一下。

通过字典创建

import pandas as pd
data = {"name": ["Alice", "Bob", "Cindy", "David"], "age":[25, 23, 28, 24]}
df = pd.DataFrame(data)
df

image.png 另一种方式:

df = pd.DataFrame.from_dict(data)

通过列表创建

data = [["Alice", 25], ["Bob", 23], ["Cindy", 28], ["David", 24]]
df = pd.DataFrame(data, columns=["name", "age"])
df

在此处指定了列索引columns,执行结果同上。

通过Series对象创建:

data = [pd.Series(["Alice", 25], index=["name", "age"]), pd.Series(["Bob", 23, "man"], index=["name", "age", "gender"])]
df = pd.DataFrame(data)
df

image.png

下面介绍一个特别的方式:

读取.CSV文件的内容

在进行数据分析时,有时源数据会保存在.CSV表格中,我们可以使用 Pandas 提供的pd.read_csv('filename.csv')方法进行读取,并返回Dataframe对象,代码如下:

df = pd.read_csv('./xxx.csv')

部分可选参数:

  • sep:指定数据的分隔符
  • header:指定DataFrame的列名称,默认为.CSV文件的表头,也可以设置指定的行,比如header=1,表示设置第二行为列名称,也可以设置为header=[xx, xx, xx]的形式,也可以设置header=None,这时需要指定name参数。
  • names:指定列名称,使用列表方式进行设置,设置后可替换header参数设置的列名称。

原创不易,如果小伙伴们觉得有帮助,麻烦点个赞再走呗~

最后,感谢女朋友在工作和生活中的包容、理解与支持 !