Python 是数据分析最主流、最易用的语言,生态成熟、库丰富,从数据处理、可视化到机器学习都能一站式搞定。
我给你整理了零基础可直接上手的核心内容:必备库、学习路线、代码示例、实战流程。
一、数据分析 3 大核心库(必须掌握)
这三个是 Python 数据分析的基石,90% 的工作都靠它们:
| 库名 | 作用 |
|---|---|
| NumPy | 数值计算,处理数组、矩阵 |
| Pandas | 数据处理核心(表格数据:Excel/CSV) |
| Matplotlib/Seaborn | 数据可视化(画图) |
二、快速安装(一行命令)
打开终端/命令提示符运行:
pip install numpy pandas matplotlib seaborn
三、最常用代码示例(直接复制运行)
1. 读取数据(Excel / CSV)
import pandas as pd
# 读取 CSV
df = pd.read_csv("data.csv")
# 读取 Excel
df = pd.read_excel("data.xlsx")
# 查看数据前 5 行
print(df.head())
2. 快速查看数据信息
# 数据基本信息(行数、列数、类型)
df.info()
# 统计指标(均值、标准差、最值)
df.describe()
# 查看缺失值
df.isnull().sum()
3. 数据清洗(必备技能)
# 删除缺失值
df = df.dropna()
# 填充缺失值
df = df.fillna(0)
# 去重
df = df.drop_duplicates()
# 筛选数据
df[df["年龄"] > 30] # 筛选年龄大于30的行
4. 数据统计与分组
# 按列求和
df["销售额"].sum()
# 分组统计
df.groupby("城市")["销售额"].mean() # 按城市算平均销售额
# 排序
df.sort_values(by="销售额", ascending=False)
5. 数据可视化
import matplotlib.pyplot as plt
# 柱状图
df["城市"].value_counts().plot(kind="bar")
plt.title("各城市数量")
plt.show()
# 折线图
df.plot(x="日期", y="销售额")
plt.show()
四、标准数据分析流程(工作实战)
- 读取数据:CSV / Excel / MySQL
- 探索数据:查看结构、缺失值、异常值
- 数据清洗:去空、去重、修正格式
- 数据处理:筛选、分组、聚合、计算
- 可视化:画图展示规律
- 导出结果:保存为 Excel/图表报告
五、学习路线(从入门到实战)
- Python 基础(变量、列表、循环、函数)
- Pandas 核心(最重要)
- 数据可视化
- 简单统计分析
- 实战项目(销售分析、用户分析、财务报表)
总结
- Python 数据分析核心三剑客:Pandas、NumPy、Matplotlib
- 工作流程:读取 → 探索 → 清洗 → 处理 → 可视化
- 上手极快,复制代码就能用