数据分析库 Pandas

182 阅读1分钟

1、Pandas 介绍

pandas

  • 2008年 WesMcKinney 开 发出的库
  • 专门用于数据挖掘的开源 python 库
  • 以 Numpy 为基础,借力 Numpy 模块在计算方面性能高的优势
  • 基于 matplotlib ,能够简便的画图
  • 独特的数据结构

为什么使用 Pandas

Numpy 已经能够帮助我们处理数据,能够结合 matplotlib 解决部分数据展示pandas 学习的目的在什么地方呢?

  • 便捷的数据处理能力
  • 读取文件方便
  • 封装了 Matplotlib、Numpy 的画图和计算

2、DataFrame 属性和方法

(1)DataFrame 结构

DataFrame 对象既有行索引,又有列索引

  • 行索引,表明不同行,横向索引,叫 index
  • 列索引,表名不同列,纵向索引,叫 columns

image.png image.png image.png

实际操作

6e179ed603ffeabcf93650dd6a34a78a_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

3.pandas中的DataFrame常用属性和方法

b72e9333f4b2745269c176e51f706fc7_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

8917644302d95f02220eb14151b996a5_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

4.索引操作与赋值运算、逻辑运算

ec9ca9c733321ad71d0def1abfef0a58_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

3da58d5e4ba20df90b8af554406800b2_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

5.读取和存储文件

a22f7f6864af052812ef1159033912d5_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

abf2eb3031332affb1c144913b4d2c5e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

6.高级处理

6.1缺失值的处理

2d8b80ee7faf982aae219255bac6428b_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

3d5ac6bc8f901ba0055f9c09334bf64f_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

6.2 数据的离散化处理

35a4e2a849dc598458cb66e48a692a8b_20200505223227747.png

0ad32062300c65c7302d7e00a7a53752_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2MDc5OTEy,size_16,color_FFFFFF,t_70.png

6.3 数据的分组与聚合

image.png

image.png

col =pd.DataFrame({'color': ['white','red','green','red','green'], 'object': ['pen','pencil','pencil','ashtray','pen'],'price1':[5.56,4.20,1.30,0.56,2.75],'price2':[4.75,4.12,1.60,0.75,3.15]})

image.png