一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第7天,点击查看活动详情。
之前的文章已经介绍了 Pandas Series数据结构及其操作,接下来就来介绍 Pandas 另一种数据结构 Dataframe。
DataFrame 是一种二维的表格型的数据结构,由行和列组成,既有行索引index,也有列索引columns,可以将其理解成存放Series对象的容器。
Dataframe 的创建
语法格式如下:
import pandas as pd
pd.DataFrame(data, index, columns)
常用参数说明:
- data: 要存储的数据,可以是列表、字典、ndarray数组、Series对象,或者Dataframe也可以
- index:行索引
- columns:列索引
- ···
下面通过具体代码了解一下。
通过字典创建:
import pandas as pd
data = {"name": ["Alice", "Bob", "Cindy", "David"], "age":[25, 23, 28, 24]}
df = pd.DataFrame(data)
df
另一种方式:
df = pd.DataFrame.from_dict(data)
通过列表创建:
data = [["Alice", 25], ["Bob", 23], ["Cindy", 28], ["David", 24]]
df = pd.DataFrame(data, columns=["name", "age"])
df
在此处指定了列索引columns,执行结果同上。
通过Series对象创建:
data = [pd.Series(["Alice", 25], index=["name", "age"]), pd.Series(["Bob", 23, "man"], index=["name", "age", "gender"])]
df = pd.DataFrame(data)
df
下面介绍一个特别的方式:
读取.CSV文件的内容:
在进行数据分析时,有时源数据会保存在.CSV表格中,我们可以使用 Pandas 提供的pd.read_csv('filename.csv')方法进行读取,并返回Dataframe对象,代码如下:
df = pd.read_csv('./xxx.csv')
部分可选参数:
- sep:指定数据的分隔符
- header:指定DataFrame的列名称,默认为.CSV文件的表头,也可以设置指定的行,比如
header=1,表示设置第二行为列名称,也可以设置为header=[xx, xx, xx]的形式,也可以设置header=None,这时需要指定name参数。 - names:指定列名称,使用列表方式进行设置,设置后可替换
header参数设置的列名称。
原创不易,如果小伙伴们觉得有帮助,麻烦点个赞再走呗~
最后,感谢女朋友在工作和生活中的包容、理解与支持 !