如何在Pandas中访问样本数据集

95 阅读2分钟

通常情况下,你可能想访问pandas中的样本数据集来玩耍和练习不同的功能。

幸运的是,你可以通过使用内置的测试功能来建立样本pandas数据集。

下面的例子展示了如何使用这个功能。

例子1:创建带有所有数字列的pandas数据集

下面的代码展示了如何创建一个全部为数字列的pandas数据集:

import pandas as pd

#create sample dataset
df1 = pd.util.testing.makeDataFrame()

#view dimensions of dataset
print(df1.shape)

(30, 4)

#view first five rows of dataset
print(df1.head())

                   A         B         C         D
s8tpz0W5mF -0.751223  0.956338 -0.441847  0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK  0.727880  0.128638 -0.989993  1.094069
IH3bptMpdb -1.599723  1.570162 -0.221688  2.194936
gaR9ZxBTrH  0.025171 -0.446555  0.169873 -1.583553

默认情况下,makeDataFrame()函数会创建一个30行4列的pandas DataFrame,其中所有的列都是数字。

例2:创建混合列的pandas数据集

下面的代码展示了如何创建一个全部为数字列的pandas数据集:

import pandas as pd

#create sample dataset
df2 = pd.util.testing.makeMixedDataFrame()

#view dimensions of dataset
print(df2.shape)

(5, 4)

#view first five rows of dataset
print(df2.head())

     A    B     C          D
0  0.0  0.0  foo1 2009-01-01
1  1.0  1.0  foo2 2009-01-02
2  2.0  0.0  foo3 2009-01-05
3  3.0  1.0  foo4 2009-01-06
4  4.0  0.0  foo5 2009-01-07

默认情况下,makeMixedDataFrame()函数会创建一个5行4列的pandas DataFrame,其中的列是各种数据类型。

我们可以使用下面的代码来显示 每一列的数据类型

#display data type of each column
df2.dtypes

A           float64
B           float64
C            object
D    datetime64[ns]
dtype: object

从输出结果中我们可以看到:

  • A列是数字
  • 列B是数字
  • 列C是一个字符串
  • D列是一个日期

例3:创建带有缺失值的潘达斯数据集

下面的代码展示了如何创建一个在不同列中有一些缺失值的pandas数据集:

import pandas as pd

#create sample dataset
df3 = pd.util.testing.makeMissingDataFrame()

#view dimensions of dataset
print(df3.shape)

(30, 4)

#view first five rows of dataset
print(df3.head())

                   A         B         C         D
YgAQaNaGfG  0.444376 -2.264920  1.117377 -0.087507
JoT4KxJeHd  1.913939  1.287006 -0.331315 -0.392949
tyrA2P6wz3       NaN  2.988521  0.399583  0.095831
1qvPc9DU1t  0.028716  1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339  0.332067  0.204074       NaN

默认情况下,makeMissingDataFrame()函数会创建一个有30行4列的pandas数据框,其中各列有一些缺失值(NaN)。

这个函数特别有用,因为它允许你处理有一些缺失值的数据集,这在现实世界的数据集中很常见。

其他资源

下面的教程解释了如何在pandas中执行其他常见任务:

如何用随机数据创建pandas数据框架
如何在pandas中随机抽取行数
如何在pandas数据框架中洗刷行数