- import pandas as pd
- import numpy as np
- import matplotlib.pylab as plt
题目 1:地铁客流数据分析
“地铁客流数据.csv” 包含字段:“日期”“线路”“站点名称”“进站人数”“出站人数”“时段 (早高峰 / 平峰 / 晚高峰)”。
请使用 pandas、numpy 和 matplotlib 完成以下任务:
- 读取 CSV 文件数据,计算每个站点的总客流(进站人数 + 出站人数),添加为新列。
- 按 “线路” 和 “时段” 双重分组,统计不同线路、不同时段的平均进站人数。
- 提取 “日期” 中的月份,统计每月的总客流(所有站点进出站之和),绘制柱状图。
- 计算每个站点进站人数与出站人数的相关系数。
- 筛选出总客流前 10 的站点,绘制水平柱状图展示结果。
分解代码:
请使用 pandas、numpy 和 matplotlib 完成以下任务:
1. 读取 CSV 文件数据,计算每个站点的总客流(进站人数 + 出站人数),添加为新列。
df = pd.read_csv("地铁客流数据.csv")
df['总客流'] = df['进站人数'] + df['出站人数']
print(df)
运行结果:
2. 按 “线路” 和 “时段” 双重分组,统计不同线路、不同时段的平均进站人数。
mean_in = df.groupby(['线路','时段 (早高峰/平峰/晚高峰)'])['进站人数'].mean()
print(mean_in)
运行结果:
3. 提取 “日期” 中的月份,统计每月的总客流(所有站点进出站之和),绘制柱状图。
df['日期'] = pd.to_datetime(df['日期'])
df['月份'] = df['日期'].dt.month
sum_month = df.groupby('月份')['总客流'].sum()
print(sum_month)
plt.bar(sum_month.index, sum_month)
plt.show()
运行结果:
4. 计算每个站点进站人数与出站人数的相关系数。
corr = df['进站人数'].corr(df['出站人数'])
print(corr)
运行结果:
5. 筛选出总客流前 10 的站点,绘制水平柱状图展示结果。
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置字体为黑色
df = df.sort_values('总客流',ascending=False) # 降序排序
print(df)
top5 = df[:5].reset_index()
print(top5)
plt.bar(top5['站点名称'], top5['总客流'])
plt.show()
运行结果:
完整代码:
# 1. 读取 CSV 文件数据,计算每个站点的总客流(进站人数 + 出站人数),添加为新列。
df = pd.read_csv("地铁客流数据.csv")
df['总客流'] = df['进站人数'] + df['出站人数']
print(df)
# 2. 按 “线路” 和 “时段” 双重分组,统计不同线路、不同时段的平均进站人数。
mean_in = df.groupby(['线路','时段 (早高峰/平峰/晚高峰)'])['进站人数'].mean()
print(mean_in)
# 3. 提取 “日期” 中的月份,统计每月的总客流(所有站点进出站之和),绘制柱状图。
df['日期'] = pd.to_datetime(df['日期'])
df['月份'] = df['日期'].dt.month
sum_month = df.groupby('月份')['总客流'].sum()
print(sum_month)
plt.bar(sum_month.index, sum_month)
plt.show()
# 4. 计算每个站点进站人数与出站人数的相关系数。
corr = df['进站人数'].corr(df['出站人数'])
print(corr)
# 5. 筛选出总客流前 10 的站点,绘制水平柱状图展示结果。
plt.rcParams['font.sans-serif'] = ['SimHei'] # 设置字体为黑色
df = df.sort_values('总客流',ascending=False) # 降序排序
print(df)
top5 = df[:5].reset_index()
print(top5)
plt.bar(top5['站点名称'], top5['总客流'])
plt.show()
题目 2:网约车订单数据分析
“网约车订单数据.csv” 包含字段:“订单 ID”“出发时间”“行程距离 (km)”“行驶时长 (分钟)”“起步价 (元)”“里程费 (元 /km)”“附加费 (元)”。
请使用 pandas 和 matplotlib 完成以下任务:
- 读取 CSV 文件数据,计算订单总费用(起步价 + 行程距离 × 里程费 + 附加费),添加为新列。
- 按 “出发时间” 提取小时信息,统计各小时的订单量和平均行程距离。
- 计算总费用的最大值、最小值、均值和标准差。
- 按行程距离分组(0-5km、5-10km、10km+),统计每组的订单数和平均总费用,绘制柱状图。
- 保存行程距离 ≥10km 的订单数据为 “长途订单.csv”(不含索引)。
分解代码:
请使用 pandas 和 matplotlib 完成以下任务:
1. 读取 CSV 文件数据,计算订单总费用(起步价 + 行程距离 × 里程费 + 附加费),添加为新列。
df = pd.read_csv(
'网约车订单数据.csv',
index_col='订单ID'
)
df['总费用'] = df['起步价 (元)'] + df['行程距离 (km)'] * df['里程费 (元/km)'] + df['附加费 (元)']
print(df)
运行结果:
2. 按 “出发时间” 提取小时信息,统计各小时的订单量和平均行程距离。
df['出发时间'] = pd.to_datetime(df['出发时间'])
df['小时'] = df['出发时间'].dt.hour
df['订单量'] = [1 for i in range(df.shape[0])]
state = df.groupby('小时').agg({
'订单量':'sum',
'行程距离 (km)':'mean'
})
print(state)
运行结果:
3. 计算总费用的最大值、最小值、均值和标准差。
total = df['总费用'] .agg(['max', 'min', 'mean', 'std'])
print(total)
运行结果:
4. 按行程距离分组(0-5km、5-10km、10km+),统计每组的订单数和平均总费用,绘制柱状图。
df['距离分组'] = pd.cut(
df['行程距离 (km)'],
bins=[0, 5, 10, np.inf],
labels=['0-5km', '5-10km', '10km+'],
right=False
)
print(df)
group_data = df.groupby('距离分组').agg({
'订单量':'count',
'总费用':'mean'
})
print(group_data)
plt.bar(group_data.index, group_data['订单量'])
plt.show()
plt.bar(group_data.index, group_data['总费用'])
plt.show()
运行结果:
5. 保存行程距离 ≥10km 的订单数据为 “长途订单.csv”(不含索引)。
new_data = df[df['行程距离 (km)'] >= 10]
new_data.to_csv("长途订单.csv")
运行结果为一个文件
完整代码:
# 1. 读取 CSV 文件数据,计算订单总费用(起步价 + 行程距离 × 里程费 + 附加费),添加为新列。
df = pd.read_csv(
'网约车订单数据.csv',
index_col='订单ID'
)
df['总费用'] = df['起步价 (元)'] + df['行程距离 (km)'] * df['里程费 (元/km)'] + df['附加费 (元)']
print(df)
# 2. 按 “出发时间” 提取小时信息,统计各小时的订单量和平均行程距离。
df['出发时间'] = pd.to_datetime(df['出发时间'])
df['小时'] = df['出发时间'].dt.hour
df['订单量'] = [1 for i in range(df.shape[0])]
state = df.groupby('小时').agg({
'订单量':'sum',
'行程距离 (km)':'mean'
})
print(state)
# 3. 计算总费用的最大值、最小值、均值和标准差。
total = df['总费用'] .agg(['max', 'min', 'mean', 'std'])
print(total)
# 4. 按行程距离分组(0-5km、5-10km、10km+),统计每组的订单数和平均总费用,绘制柱状图。
df['距离分组'] = pd.cut(
df['行程距离 (km)'],
bins=[0, 5, 10, np.inf],
labels=['0-5km', '5-10km', '10km+'],
right=False
)
print(df)
group_data = df.groupby('距离分组').agg({
'订单量':'count',
'总费用':'mean'
})
print(group_data)
plt.bar(group_data.index, group_data['订单量'])
plt.show()
plt.bar(group_data.index, group_data['总费用'])
plt.show()
# 5. 保存行程距离 ≥10km 的订单数据为 “长途订单.csv”(不含索引)。
new_data = df[df['行程距离 (km)'] >= 10]
new_data.to_csv("长途订单.csv")