1、Pandas 介绍
pandas
- 2008年 WesMcKinney 开 发出的库
- 专门用于数据挖掘的开源 python 库
- 以 Numpy 为基础,借力 Numpy 模块在计算方面性能高的优势
- 基于 matplotlib ,能够简便的画图
- 独特的数据结构
为什么使用 Pandas
Numpy 已经能够帮助我们处理数据,能够结合 matplotlib 解决部分数据展示pandas 学习的目的在什么地方呢?
- 便捷的数据处理能力
- 读取文件方便
- 封装了 Matplotlib、Numpy 的画图和计算
2、DataFrame 属性和方法
(1)DataFrame 结构
DataFrame 对象既有行索引,又有列索引
- 行索引,表明不同行,横向索引,叫 index
- 列索引,表名不同列,纵向索引,叫 columns
实际操作
3.pandas中的DataFrame常用属性和方法
4.索引操作与赋值运算、逻辑运算
5.读取和存储文件
6.高级处理
6.1缺失值的处理
6.2 数据的离散化处理
6.3 数据的分组与聚合
col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})