Python中的Pandas

简介:

Pandas是一个用于处理数据集的Python库。
它用于探索、清理、操作和分析数据。
Pandas "这个词提到了 "面板数据 "和 "Python数据分析"。

导入Pandas :

import pandas

现在，它已经可以使用了。

import pandas
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pandas.DataFrame(a)
print(df)

用别名导入Pandas。

通常，Pandas是用pd alias导入的。
alias：alias是指对同一事物的替代名称。

import pandas as pd
a={
"Fruits":["apple", "mango", "kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a)
print(df)

潘达斯系列。

系列是一个一维数组，能够容纳单一类型的数据。
系列就像表格中的一个列。

import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s)

标签。

如果没有指定索引，数值会用它们的索引号来标示，第一个元素的索引是0，第二个是1，以此类推。

我们也可以通过索引号访问系列中的元素。

import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s[0])

创建标签。

我们也可以在index 参数的帮助下创建我们的索引。

import pandas as pd
a=[1,2,3]
s=pd.Series(a,index= 'a','b','c')
print(s)

Pandas数据框架。

DataFrame就像一个表格式的电子表格，代表着包含一个或多个列的行。
系列就像表格中的一个列，而DataFrame是一个表格。

import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df)

DataFrame中的索引。

和系列一样，我们也可以在DataFrame中命名索引。

import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a,index="x","y","z")
print(df)

Loc :

loc[] 属性返回一个或多个指定的行。

import pandas as pd
a={
"Fruits":["apple","mango","banana"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df.loc[0])

你也可以通过使用loc[] 属性引用命名的索引来访问DataFrame元素。

import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a,index='x','y','z')
print(df.loc['x'])

读取CSV文件。

CSV代表逗号分隔的文件。
Pandas提供了read_csv() 方法来在DataFrame中加载CSV文件。
我将使用'data.csv'文件作为一个例子。

a=pd.read_csv('data.csv')
print(a)

默认情况下，它将打印前5行和最后5行的标题。
如果你想打印整个DataFrame，请使用to_string 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.to_string)

分析数据:

Head()方法。

head() 方法从数据集的顶部返回标题和指定行数。

# Get the quick overview by printing 3 rows of the dataset :
import pandas as pd
a=pd.read_csv('data.csv')
print(a.head(3))

注意：如果没有指定行数，head方法将返回5行。

尾部方法。

tail() 方法从数据集的底部返回标题和指定行数。

# Get the first 10 rows of the dataset
import pandas as pd
a=pd.read_csv('data.csv')
print(a.tail(10))

关于数据的信息。

info() 方法用于提供关于数据集的更多信息。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.info())

数据清理。

数据清理意味着修复错误的数据。
错误的数据可能是空值，重复的，格式错误的数据。

删除空值。

删除空值的一种方法是删除含有空值的行。
dropna() 方法是用来删除有重复值的行。

import pandas as pd
a=pd.read_csv('data.csv')
df=a.dropna()
print(df)

默认情况下，dropna() 方法将返回一个新的DataFrame，而不影响原始DataFrame。
如果你想改变原始DataFrame，请使用inplace = True 。

import pandas as pd
a=pd.read_csv('data.csv')
a.dropna(inplace=True)
print(a)

另一种填充空值的方法是填充一个新的值来代替。
fillna() 方法是填充空值。

# Fill the null values with 130 :
import pandas as pd
a=pd.read_csv('data.csv')
a.fillna(130,inplace=True)
print(a)

删除重复的数据:

要发现一个数据集中的重复数据，可以使用duplicated() 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.duplicated())

duplicated() 方法对每一行都返回True和False。

要从一个数据集中删除重复的数据，请使用drop_duplicates() 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.drop_duplicates(inplace=True))
print(a)

清理错误的数据。

错误的数据可能是格式错误的数据。
要删除错误的数据，请使用loc[] 属性。

import pandas as pd
a=pd.read_csv('data.csv')
a.loc[0,7]=45

Pandas中的相关关系。

corr() 方法返回数据集中每一列之间的关系。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.corr())

认识Python中的Pandas