我们将讨论Python中的Pandas,一个提供高性能数据结构和数据分析工具的开源库,可以随时使用。我们还将学习DataFrame,Pandas的优势,以及如何使用Pandas来选择DataFrame的多列。让我们开始吧!
什么是Python中的Pandas?
Pandas是一个Python开放源码库。它为数据分析提供了高效的结构和工具,可以随时使用。Pandas是一个在NumPy之上运行的Python模块,被广泛用于数据科学和分析。NumPy是另一套低层次的数据结构,可以处理多维数组和各种数学数组操作。Pandas有一个更先进的用户界面。它还具有强大的时间序列能力和高效的表格数据排列。Pandas的主要数据结构是DataFrame。一个二维数据结构允许我们存储和修改表格式数据。Pandas为DataFrame提供任何功能,如数据操作、连接、合并、分组等。
什么是DataFrame?
最基本和广泛使用的数据结构是DataFrame。它是一种常用的数据存储方法。DataFrame用行和列来存储数据,就像SQL表或电子表格数据库一样。
Pandas的优势
许多用户希望SQL包含高斯随机数生成或定量等功能,因为他们很难将程序化的概念纳入SQL查询中。用户可能会说:"如果我可以用Python写这个,然后迅速切换回SQL就好了。"而Pandas提供了一个表格数据类型,并有精心设计的接口,使他们能够做到这一点。还有更多的选择,比如利用特定的程序语言,如Oracle的PLSQL或Postgres的PLPGSQL或低级别的数据库接口。Pandas有一个单行的SQL读取接口(pd.read sql)和一个单行的SQL写入接口(pd.to sql),可与R数据框架相媲美。
另一个显著的优势是,像Seaborn这样的图表库可以将数据框架的列作为高级图表属性。所以,Pandas提供了一种合理的方式来管理Python中的表格数据,以及一些非常棒的存储和图表API。
选项1:使用基本键索引
import pandas as pd
data = {'Name':['A', 'B', 'C', 'D'],
'Age':[27, 24, 22, 32]}
df = pd.DataFrame(data)
df[['Name', 'Age']]
输出
Name Age
0 A 27
1 B 24
2 C 22
3 D 32
选项2:使用.loc[]
import pandas as pd
data = {'Fruit':['Apple', 'Banana', 'Grapes', 'Orange'],
'Price':[160, 100, 60, 80]}
df = pd.DataFrame(data)
df.loc[0:2, ['Fruit', 'Price']]
输出
Fruit Price
0 Apple 160
1 Banana 100
2 Grapes 60
3 Orange 80
选项3:使用.iloc[]
import pandas as pd
data = {'Dog':['A', 'B', 'C', 'D'],
'Age':[2, 4, 3, 1]}
df = pd.DataFrame(data)
df.iloc[:, 0:2]
输出
Dog Age
0 A 2
1 B 4
2 C 3
3 D 1
选项4:使用.ix[]
import pandas as pd
data = {'Name':['A', 'B', 'C', 'D'],
'Roll number':[21, 25, 19, 49]}
df = pd.DataFrame(data)
print(df.ix[:, 0:2])
输出
Name Roll number
0 A 21
1 B 25
2 C 19
3 D 49
总结
我们讨论了Python中的Pandas,DataFrame,Pandas的优势,以及如何使用Pandas来选择DataFrame的多列。在选择多列时,我们讨论了四个选项:分别使用基本键索引、".ix"、".loc "和".iloc"。