介绍
在Python中,pandas是基于numpy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的,而numpy更适合处理统一的数值数组数据。
使用下面格式约定,引入pandas包:import pandas as pd
pandas有两个主要数据结构:Series 和 DataFrame
一、Series(一维,带标签数组)
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的 **数据标签(即索引)**组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。
1、Series的创建:

2、修改index:

3、用string方法,给index属性传递字母:

4、Series还可以用字典的格式来表示【dtype()查类型,astype()改类型】



5、Series切片和索引

6、Series的索引和值


7、用Series()方法读取mongodb数据【pandas没有自带获取mongodb的方法】

二、DataFrame(二维,Series容器)
DataFrame是一个表格型的数据类型,每列值类型可以不同,是最常用的pandas对象。
DataFrame既有行索引,也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
1、DataFrame的创建:

2、更改行、列索引

3、DataFrame还可以用字典的格式来表示

4、用DataFrame()方法读取mongodb数据【pandas没有自带获取mongodb的方法】

5、DataFrame的属性、用法 和 描述信息


》另外记住一个常用查询方法:sort_values()【用于对DataFrame数据进行排序】
df.sort_values(by="xxx", ascending=False)
# by参数传递“需要按照哪个列排序”;ascending参数表示升序或降序,True为升序,False为降序。
12
6、DataFrame取值、取索引
》 取值:

》① loc方法:

》 ② iloc方法:

7、DataFrame布尔索引


三、pandas中缺失数据的处理



四、pandas读写文本格式的数据
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,其中read_csv()、read_table()、to_csv()是用得最多的。

工作中实际碰到的数据可能十分混乱,一些数据加载函数(尤其是read_csv)的参数非常多(read_csv有超过50个参数)。
完整教程视频点这里获取