【机器学习】嘿马机器学习（科学计算库）第7篇：Pandas,5.1Pandas介绍【附代码文档】1.机器学习常用科学计算

🏆🏆🏆教程全知识点简介：1.机器学习常用科学计算库包括基础定位、目标。2. 人工智能概述涵盖人工智能应用场景、人工智能小案例、人工智能发展必备三要素、人工智能机器学习和深度学习。3. 机器学习概述包括机器学习工作流程、什么是机器学习、模型评估（回归模型评估、拟合）、Azure机器学习模型搭建、完整机器学习项目流程。4. 机器学习基础环境安装与使用包括Jupyter Notebook使用（一级标题、Jupyter Notebook中自动补全代码等相关功能拓展）。5. Matplotlib可视化涵盖Matplotlib HelloWorld（什么是Matplotlib、实现简单Matplotlib画图折线图、画出温度变化图、准备数据、创建画布、绘制折线图、显示图像、构造x轴刻度标签、修改坐标刻度显示、设置中文字体、设置正常显示符号、保存图片）、添加坐标轴刻度、添加网格显示、添加描述信息、图像保存、设置图形风格、常见图形绘制（常见图形种类意义、散点图绘制）。6. Numpy包括Numpy优势、N维数组ndarray（ndarray属性）、基本操作（生成数组方法、生成0和1数组、从现有数组生成、创建符合正态分布股某票涨跌幅数据）、数组间运算（数组与数的运算）。7. Pandas数据结构包括Series、DataFrame。8. 文件读取与存储涵盖CSV（read_csv）、HDF（read_hdf与to_hdf）、JSON（read_josn）。9. 高级处理数据离散化包括为什么要离散化、什么是数据离散化、股某票涨跌幅离散化（读取股某票数据、将股某票涨跌幅数据进行分组、股某票涨跌幅分组数据变成one_hot编码）、案例实现。

📚📚👉👉👉本站这篇博客： juejin.cn/post/753618… 中查看

✨ 本教程项目亮点

🧠 知识体系完整：覆盖从基础原理、核心方法到高阶应用的全流程内容
💻 全技术链覆盖：完整前后端技术栈，涵盖开发必备技能
🚀 从零到实战：适合 0 基础入门到提升，循序渐进掌握核心能力
📚 丰富文档与代码示例：涵盖多种场景，可运行、可复用
🛠 工作与学习双参考：不仅适合系统化学习，更可作为日常开发中的查阅手册
🧩 模块化知识结构：按知识点分章节，便于快速定位和复习
📈 长期可用的技术积累：不止一次学习，而是能伴随工作与项目长期参考

🎯🎯🎯全教程总章节

🚀🚀🚀本篇主要内容

Pandas

学习目标

了解Numpy与Pandas的不同
说明Pandas的Series与Dataframe两种结构的区别
了解Pandas的MultiIndex与panel结构
应用Pandas实现基本数据操作
应用Pandas实现数据的合并
应用crosstab和pivot_table实现交叉表与透视表
应用groupby和聚合函数实现数据的分组与聚合
了解Pandas的plot画图功能
应用Pandas实现数据的读取和存储

5.1Pandas介绍

学习目标

目标
- 了解什么是pandas
- 了解Numpy与Pandas的不同
- 知道使用pandas的优势

1 Pandas介绍

2008年WesMcKinney开发出的库
专门用于数据挖掘的开源python库
以Numpy为基础，借力Numpy模块在计算方面性能高的优势
基于matplotlib，能够简便的画图
独特的数据结构

2 为什么使用Pandas

Numpy已经能够帮助处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

增强图表可读性
- 回忆在numpy当中创建学生成绩表样式：
- 返回结果：

array([[92, 55, 78, 50, 50], [71, 76, 50, 48, 96], [45, 84, 78, 51, 68], [81, 91, 56, 54, 76], [86, 66, 77, 67, 95], [46, 86, 56, 61, 99], [46, 95, 44, 46, 56], [80, 50, 45, 65, 57], [41, 93, 90, 41, 97], [65, 83, 57, 57, 40]])




如果数据展示为这样，可读性就会更友好：

![](https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/6283154bfa4441d88bf2b6390cc5fad5~tplv-k3u1fbpfcp-watermark.image#?w=1640&h=688&s=129925&e=png&b=414624)


* **便捷的数据处理能力**

![](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f07bda0b2ab940238aab721f67fef644~tplv-k3u1fbpfcp-watermark.image#?w=2172&h=1352&s=756845&e=png&b=414624)


* **读取文件方便**
* **封装了Matplotlib、Numpy的画图和计算**




## 3 小结




* pandas的优势【了解】

* 增强图表可读性
* 便捷的数据处理能力
* 读取文件方便
* 封装了Matplotlib、Numpy的画图和计算  

# 5.2 Pandas数据结构







## 学习目标




* 目标

* 知道Pandas的Series结构
* 掌握Pandas的Dataframe结构
* 了解Pandas的MultiIndex与panel结构


---

Pandas中一共有三种数据结构，分别为：Series、DataFrame和MultiIndex（老版本中叫Panel ）。

其中Series是一维数据结构，DataFrame是二维的表格型数据结构，MultiIndex是三维的数据结构。




[threading 文档](https://docs.python.org/3/library/threading.html)


## 1.Series




Series是一个类似于一维数组的数据结构，它能够保存任何类型的数据，比如整数、字符串、浮点数等，**主要由一组数据和与之相关的索引两部分构成。**

![](https://p1-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/84173d13aa6947848c67a51fcd111f57~tplv-k3u1fbpfcp-watermark.image#?w=2564&h=1444&s=112471&e=png&b=414624)




### 1.1 Series的创建




```python


# 导入pandas


import pandas as pd

pd.Series(data=None, index=None, dtype=None)

参数：
- data：传入的数据，可以是ndarray、list等
- index：索引，必须是唯一的，且与数据的长度相等。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
- dtype：数据的类型

通过已有数据创建

指定内容，默认索引

pd.Series(np.arange(10))

  
  
# 运行结果
  
  
0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

Selenium Python 文档

jsonschema 文档

指定索引

pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])

  
  
# 运行结果
  
  
1     6.7
2     5.6
3     3.0
4    10.0
5     2.0
dtype: float64

通过字典数据创建

color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color_count

  
  
# 运行结果
  
  
blue       200
green      500
red        100
yellow    1000
dtype: int64

1.2 Series的属性

为了更方便地操作Series对象中的索引和数据，Series中提供了两个属性index和values

index

color_count.index

  
  
# 结果
  
  
Index(['blue', 'green', 'red', 'yellow'], dtype='object')

values

color_count.values

  
  
# 结果
  
  
array([ 200,  500,  100, 1000])

也可以使用索引来获取数据：

color_count[2]

  
  
# 结果
  
  
100

2.DataFrame

DataFrame是一个类似于二维数组或表格(如excel)的对象，既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index，0轴，axis=0
列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

2.1 DataFrame的创建

  
  
# 导入pandas
  
  
import pandas as pd

pd.DataFrame(data=None, index=None, columns=None)

参数：
- index：行标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
- columns：列标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
通过已有数据创建

举例一：

pd.DataF