DataFrame_summary

142 阅读4分钟

Dataframe overview

当你在使用pandas中的DataFrame进行数据分析时,了解如何查看和理解数据的概览信息是非常重要的。使用pandas提供的一些简单方法可以让我们快速地对数据进行表观分析。

首先,我们可以使用head()方法来显示DataFrame的前几行,默认显示前5行。例如:

import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())

这将打印出前5行的数据,并为每个列提供其标题和前几个值。如果您想显示不同数量的行数,只需在括号中传递所需的数字即可,例如:df.head(10)

另一个有用的方法是tail()方法,它与head()方法类似,但是它显示的是DataFrame的最后几行。例如:

print(df.tail())

这将显示最后5行的数据。

此外,还可以使用info()方法来查看DataFrame的整体摘要,包括每列的名称、数据类型和非空值的数量等。例如:

print(df.info())

输出结果可能会像这样:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
column1     1000 non-null int64
column2     1000 non-null float64
column3     1000 non-null object
dtypes: float64(1), int64(1), object(1)
memory usage: 23.6+ KB

最后,describe()方法可以提供一些有关DataFrame中数值列的统计信息,例如平均值、标准偏差和四分位数。例如:

print(df.describe())

输出结果可能会像这样:

           column1      column2
count  1000.000000  1000.000000
mean     49.500000    50.678987
std      28.887926    29.009186
min       0.000000     0.004981
25%      24.750000    25.207930
50%      49.500000    51.213858
75%      74.250000    76.156474
max      99.000000    99.977184

使用这些方法,您可以快速查看DataFrame中的数据,并获取有关数据的有用摘要信息。

Column overview

如果您想查看DataFrame中的某一列,可以使用DataFrame中的方括号操作符。例如,如果我们有一个名为df的DataFrame,并且想要查看名称为“column1”的列,可以使用以下代码:

print(df['column1'])

这将打印出DataFrame中“column1”列的所有值。

除此之外,你也可以通过指定列索引的位置来选择列。例如,如果我们想选择第二列,可以使用以下代码:

print(df.iloc[:, 1])

这将打印出DataFrame中第二列的所有值。

需要注意的是,以上两种方法都返回一个Series对象,而不是一个DataFrame对象。如果您需要将它们转换回DataFrame对象,请在方括号内传递一个列表,而不是一个字符串或整数。例如,如果我们想选择多个列,可以使用以下代码:

print(df[['column1', 'column2']])

这将打印出DataFrame中“column1”和“column2”列的所有值。

如果您想查看一列数据中有哪些不同的值,您可以使用 Pandas 库中的 unique() 函数。假设您的数据是一个 Pandas DataFrame 对象,其中某一列名为 column_name,您可以使用以下代码来获取该列中不同的值:

unique_values = df['column_name'].unique()

这将返回一个包含该列中不同值的数组 unique_values。您可以打印该数组、遍历它或者对其进行其他操作,以便进一步分析您的数据。

你可以使用 pandas 库中的 nunique() 方法来查看 dataframe 中某一列中不同数据的个数,例如:

import pandas as pd

# 创建一个示例 dataframe
df = pd.DataFrame({'A': [1, 2, 3, 1, 2], 'B': ['a', 'b', 'c', 'a', 'b']})

# 查看列 'B' 中不同数据的个数
num_unique = df['B'].nunique()

print(num_unique)  # 输出:3

在上面的示例中,df['B'] 表示选取 dataframe 中的列 'B',然后调用 nunique() 方法即可得到该列中不同数据的个数。

你可以使用 pandas 库中的 value_counts() 方法来查看 dataframe 中某一列中每个数据出现的个数,例如:

import pandas as pd

# 创建一个示例 dataframe
df = pd.DataFrame({'A': [1, 2, 3, 1, 2], 'B': ['a', 'b', 'c', 'a', 'b']})

# 查看列 'B' 中不同数据的个数
count_series = df['B'].value_counts()

print(count_series)

在上面的示例中,df['B'] 表示选取 dataframe 中的列 'B',然后调用 value_counts() 方法即可得到每个数据出现的个数。该方法会返回一个 pandas 的 Series 对象,其中每个不同的数据都是索引,对应的值表示该数据出现的次数。

输出结果为:

b    2
a    2
c    1
Name: B, dtype: int64

说明 'b' 出现了 2 次,'a' 也出现了 2 次,'c' 只出现了 1 次。