在Pandas中选择多列的教程

519 阅读3分钟

我们将讨论Python中的Pandas,一个提供高性能数据结构和数据分析工具的开源库,可以随时使用。我们还将学习DataFrame,Pandas的优势,以及如何使用Pandas来选择DataFrame的多列。让我们开始吧!

什么是Python中的Pandas?

Pandas是一个Python开放源码库。它为数据分析提供了高效的结构和工具,可以随时使用。Pandas是一个在NumPy之上运行的Python模块,被广泛用于数据科学和分析。NumPy是另一套低层次的数据结构,可以处理多维数组和各种数学数组操作。Pandas有一个更先进的用户界面。它还具有强大的时间序列能力和高效的表格数据排列。Pandas的主要数据结构是DataFrame。一个二维数据结构允许我们存储和修改表格式数据。Pandas为DataFrame提供任何功能,如数据操作、连接、合并、分组等。

什么是DataFrame?

最基本和广泛使用的数据结构是DataFrame。它是一种常用的数据存储方法。DataFrame用行和列来存储数据,就像SQL表或电子表格数据库一样。

Pandas的优势

许多用户希望SQL包含高斯随机数生成或定量等功能,因为他们很难将程序化的概念纳入SQL查询中。用户可能会说:"如果我可以用Python写这个,然后迅速切换回SQL就好了。"而Pandas提供了一个表格数据类型,并有精心设计的接口,使他们能够做到这一点。还有更多的选择,比如利用特定的程序语言,如Oracle的PLSQL或Postgres的PLPGSQL或低级别的数据库接口。Pandas有一个单行的SQL读取接口(pd.read sql)和一个单行的SQL写入接口(pd.to sql),可与R数据框架相媲美。

另一个显著的优势是,像Seaborn这样的图表库可以将数据框架的列作为高级图表属性。所以,Pandas提供了一种合理的方式来管理Python中的表格数据,以及一些非常棒的存储和图表API。

选项1:使用基本键索引

import pandas as pd

data = {'Name':['A', 'B', 'C', 'D'],
        'Age':[27, 24, 22, 32]}
 
df = pd.DataFrame(data)
 
df[['Name', 'Age']]

输出

   Name     Age

0    A       27

1    B       24

2    C       22

3    D       32

选项2:使用.loc[]

import pandas as pd
 
data = {'Fruit':['Apple', 'Banana', 'Grapes', 'Orange'],
        'Price':[160, 100, 60, 80]}

df = pd.DataFrame(data)

df.loc[0:2, ['Fruit', 'Price']]

输出

 Fruit    Price

0  Apple     160

1  Banana    100

2  Grapes    60

3  Orange    80

选项3:使用.iloc[]

import pandas as pd

data = {'Dog':['A', 'B', 'C', 'D'],
        'Age':[2, 4, 3, 1]}


df = pd.DataFrame(data)

df.iloc[:, 0:2]

输出

   Dog   Age

0    A     2

1    B     4

2    C     3

3    D     1

选项4:使用.ix[]

import pandas as pd

data = {'Name':['A', 'B', 'C', 'D'],
        'Roll number':[21, 25, 19, 49]}
 
df = pd.DataFrame(data)

print(df.ix[:, 0:2])

输出

   Name   Roll number

0   A       21

1   B       25

2   C       19

3   D       49

总结

我们讨论了Python中的Pandas,DataFrame,Pandas的优势,以及如何使用Pandas来选择DataFrame的多列。在选择多列时,我们讨论了四个选项:分别使用基本键索引、".ix"、".loc "和".iloc"。