Python中的Pandas
简介:
- Pandas是一个用于处理数据集的Python库。
- 它用于探索、清理、操作和分析数据。
- Pandas "这个词提到了 "面板数据 "和 "Python数据分析"。
导入Pandas :
import pandas
现在,它已经可以使用了。
import pandas
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pandas.DataFrame(a)
print(df)
用别名导入Pandas。
通常,Pandas是用pd alias导入的。
alias:alias是指对同一事物的替代名称。
import pandas as pd
a={
"Fruits":["apple", "mango", "kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a)
print(df)
潘达斯系列。
- 系列是一个一维数组,能够容纳单一类型的数据。
- 系列就像表格中的一个列。
import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s)
标签。
如果没有指定索引,数值会用它们的索引号来标示,第一个元素的索引是0,第二个是1,以此类推。
- 我们也可以通过索引号访问系列中的元素。
import pandas as pd
a=[1,2,3]
s=pd.Series(a)
print(s[0])
创建标签。
我们也可以在index 参数的帮助下创建我们的索引。
import pandas as pd
a=[1,2,3]
s=pd.Series(a,index= 'a','b','c')
print(s)
Pandas数据框架。
- DataFrame就像一个表格式的电子表格,代表着包含一个或多个列的行。
- 系列就像表格中的一个列,而DataFrame是一个表格。
import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df)
DataFrame中的索引。
和系列一样,我们也可以在DataFrame中命名索引。
import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty":[1,2,3]
}
df=pd.DataFrame(a,index="x","y","z")
print(df)
Loc :
loc[] 属性返回一个或多个指定的行。
import pandas as pd
a={
"Fruits":["apple","mango","banana"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a)
print(df.loc[0])
你也可以通过使用loc[] 属性引用命名的索引来访问DataFrame元素。
import pandas as pd
a={
"Fruits":["apple","mango","kiwi"],
"Qty.":[1,2,3]
}
df=pd.DataFrame(a,index='x','y','z')
print(df.loc['x'])
读取CSV文件。
- CSV代表逗号分隔的文件。
- Pandas提供了
read_csv()方法来在DataFrame中加载CSV文件。 - 我将使用'data.csv'文件作为一个例子。
a=pd.read_csv('data.csv')
print(a)
默认情况下,它将打印前5行和最后5行的标题。
如果你想打印整个DataFrame,请使用to_string 方法。
import pandas as pd
a=pd.read_csv('data.csv')
print(a.to_string)
分析数据:
Head()方法。
head() 方法从数据集的顶部返回标题和指定行数。
# Get the quick overview by printing 3 rows of the dataset :
import pandas as pd
a=pd.read_csv('data.csv')
print(a.head(3))
注意:如果没有指定行数,head方法将返回5行。
尾部方法。
tail() 方法从数据集的底部返回标题和指定行数。
# Get the first 10 rows of the dataset
import pandas as pd
a=pd.read_csv('data.csv')
print(a.tail(10))
关于数据的信息。
info() 方法用于提供关于数据集的更多信息。
import pandas as pd
a=pd.read_csv('data.csv')
print(a.info())
数据清理。
- 数据清理意味着修复错误的数据。
- 错误的数据可能是空值,重复的,格式错误的数据。
删除空值。
- 删除空值的一种方法是删除含有空值的行。
dropna()方法是用来删除有重复值的行。
import pandas as pd
a=pd.read_csv('data.csv')
df=a.dropna()
print(df)
默认情况下,dropna() 方法将返回一个新的DataFrame,而不影响原始DataFrame。
如果你想改变原始DataFrame,请使用inplace = True 。
import pandas as pd
a=pd.read_csv('data.csv')
a.dropna(inplace=True)
print(a)
- 另一种填充空值的方法是填充一个新的值来代替。
fillna()方法是填充空值。
# Fill the null values with 130 :
import pandas as pd
a=pd.read_csv('data.csv')
a.fillna(130,inplace=True)
print(a)
删除重复的数据:
要发现一个数据集中的重复数据,可以使用duplicated() 方法。
import pandas as pd
a=pd.read_csv('data.csv')
print(a.duplicated())
duplicated() 方法对每一行都返回True和False。
要从一个数据集中删除重复的数据,请使用drop_duplicates() 方法。
import pandas as pd
a=pd.read_csv('data.csv')
print(a.drop_duplicates(inplace=True))
print(a)
清理错误的数据。
错误的数据可能是格式错误的数据。
要删除错误的数据,请使用loc[] 属性。
import pandas as pd
a=pd.read_csv('data.csv')
a.loc[0,7]=45
Pandas中的相关关系。
corr() 方法返回数据集中每一列之间的关系。
import pandas as pd
a=pd.read_csv('data.csv')
print(a.corr())