Python Pandas 使用指南

468 阅读2分钟

Pandas 是一个用于数据处理和分析的强大 Python 库。通过使用 Pandas,您可以轻松地处理大型数据集和进行数据挖掘。在本教程中,我们将详细介绍 Pandas 的基本功能,并通过多个代码示例来演示如何使用这些功能。

安装 Pandas

首先,确保您已经安装了 Pandas 库。如果您还没有安装,请使用以下命令进行安装:

pip install pandas

导入 Pandas

在 Python 文件或 Jupyter Notebook 中,导入 Pandas 库:

import pandas as pd

Pandas 数据结构:Series 和 DataFrame

Pandas 有两种主要数据结构:Series 和 DataFrame。Series 是一维数组,类似于 Python 列表。DataFrame 是二维表格结构,类似于 Excel 工作表或 SQL 表。

创建 Series

使用以下代码创建 Pandas Series:

data = [1, 3, 5, 7, 9]
series = pd.Series(data)
print(series)

输出:

0    1
1    3
2    5
3    7
4    9
dtype: int64

创建 DataFrame

使用以下代码创建 Pandas DataFrame:

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David'],
    'age': [25, 30, 35, 40],
    'city': ['New York', 'San Francisco', 'Los Angeles', 'Chicago']
}

df = pd.DataFrame(data)
print(df)

输出:

      name  age           city
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles
3    David   40        Chicago

读取和写入文件

Pandas 支持多种文件格式,如 CSV、Excel、JSON 等。以下是一些常见操作。

从 CSV 文件中读取数据

df = pd.read_csv('data.csv')

将 DataFrame 保存到 CSV 文件

df.to_csv('output.csv', index=False)

数据选择和过滤

在处理 DataFrame 时,您可能需要选择或过滤特定的数据。

选择列

ages = df['age']

选择多列

subset = df[['name', 'city']]

根据条件过滤

filtered_df = df[df['age'] > 30]

数据处理

Pandas 提供了许多内置函数,可用于处理和转换数据。

计算列的平均值

mean_age = df['age'].mean()

计算列的总和

total_age = df['age'].sum()

对数据进行排序

sorted_df = df.sort_values(by='age', ascending=False)

数据聚合和分组

Pandas 提供了强大的数据聚合和分组功能。

使用 groupby 分组

grouped_df = df.groupby('city')

计算分组后的平均值

mean_age_by_city = grouped_df['age'].mean()

合并数据

Pandas 提供了多种方法,用于合并不同的 DataFrame。

使用 concat 连接 DataFrame

combined_df = pd.concat([df1, df2], axis=0)

使用 merge 合并 DataFrame

merged_df = pd.merge(df1, df2, on='key_column')

希望本 Pandas 使用指南能帮助您快速上手 Pandas 进行数据处理和分析。在实际应用中,Pandas 还有更多高级功能等待您去发掘。更多详细信息,请参阅 Pandas 官方文档