认识Python中的Pandas

290 阅读3分钟

Python中的Pandas

简介:

  • Pandas是一个用于处理数据集的Python库。
  • 它用于探索、清理、操作和分析数据。
  • Pandas "这个词提到了 "面板数据 "和 "Python数据分析"。

导入Pandas :

import pandas

现在,它已经可以使用了。

import pandas
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pandas.DataFrame(a)
print(df)

用别名导入Pandas。

通常,Pandas是用pd alias导入的。
alias:alias是指对同一事物的替代名称。

import pandas as pd
a={
"Fruits":["apple", "mango", "kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a)
print(df)

潘达斯系列。

  • 系列是一个一维数组,能够容纳单一类型的数据。
  • 系列就像表格中的一个列。
import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s)

标签。

如果没有指定索引,数值会用它们的索引号来标示,第一个元素的索引是0,第二个是1,以此类推。

  • 我们也可以通过索引号访问系列中的元素。
import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s[0])

创建标签。

我们也可以在index 参数的帮助下创建我们的索引。

import pandas as pd
a=[1,2,3]
s=pd.Series(a,index= 'a','b','c')
print(s)

Pandas数据框架。

  • DataFrame就像一个表格式的电子表格,代表着包含一个或多个列的行。
  • 系列就像表格中的一个列,而DataFrame是一个表格。
import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df)

DataFrame中的索引。

和系列一样,我们也可以在DataFrame中命名索引。

import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a,index="x","y","z")
print(df)

Loc :

loc[] 属性返回一个或多个指定的行。

import pandas as pd
a={
"Fruits":["apple","mango","banana"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df.loc[0])

你也可以通过使用loc[] 属性引用命名的索引来访问DataFrame元素。

import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a,index='x','y','z')
print(df.loc['x'])

读取CSV文件。

  • CSV代表逗号分隔的文件。
  • Pandas提供了read_csv() 方法来在DataFrame中加载CSV文件。
  • 我将使用'data.csv'文件作为一个例子。
a=pd.read_csv('data.csv')
print(a)

默认情况下,它将打印前5行和最后5行的标题。
如果你想打印整个DataFrame,请使用to_string 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.to_string)

分析数据:

Head()方法。

head() 方法从数据集的顶部返回标题和指定行数。

# Get the quick overview by printing 3 rows of the dataset :
import pandas as pd
a=pd.read_csv('data.csv')
print(a.head(3))

注意:如果没有指定行数,head方法将返回5行。

尾部方法。

tail() 方法从数据集的底部返回标题和指定行数。

# Get the first 10 rows of the dataset
import pandas as pd
a=pd.read_csv('data.csv')
print(a.tail(10))

关于数据的信息。

info() 方法用于提供关于数据集的更多信息。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.info())

数据清理。

  • 数据清理意味着修复错误的数据。
  • 错误的数据可能是空值,重复的,格式错误的数据。

删除空值。

  • 删除空值的一种方法是删除含有空值的行。
  • dropna() 方法是用来删除有重复值的行。
import pandas as pd
a=pd.read_csv('data.csv')
df=a.dropna()
print(df)

默认情况下,dropna() 方法将返回一个新的DataFrame,而不影响原始DataFrame。
如果你想改变原始DataFrame,请使用inplace = True

import pandas as pd
a=pd.read_csv('data.csv')
a.dropna(inplace=True)
print(a)
  • 另一种填充空值的方法是填充一个新的值来代替。
  • fillna() 方法是填充空值。
# Fill the null values with 130 :
import pandas as pd
a=pd.read_csv('data.csv')
a.fillna(130,inplace=True)
print(a)

删除重复的数据:

要发现一个数据集中的重复数据,可以使用duplicated() 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.duplicated())

duplicated() 方法对每一行都返回True和False。

要从一个数据集中删除重复的数据,请使用drop_duplicates() 方法。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.drop_duplicates(inplace=True))
print(a)

清理错误的数据。

错误的数据可能是格式错误的数据。
要删除错误的数据,请使用loc[] 属性。

import pandas as pd
a=pd.read_csv('data.csv')
a.loc[0,7]=45

Pandas中的相关关系。

corr() 方法返回数据集中每一列之间的关系。

import pandas as pd
a=pd.read_csv('data.csv')
print(a.corr())