Python数据分析复习(5)

127 阅读2分钟

Python数据分析——Pandas

标注:本博客的图片均来自(Pandas 数据结构 – DataFrame | 菜鸟教程 (runoob.com))系列

Pandas

Pandas,衍生自panel data,可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。 Pandas的数据结构图: image.png

Record

一行数据

Series

一列数据

Series():创建一列数据

参数说明:

  • data:一组数据(ndarray 类型)。
  • index:数据索引标签,如果不指定,默认从 0 开始。
  • dtype:数据类型,默认会自己判断。
  • name:设置名称。
  • copy:拷贝数据,默认为 False。

DataFrame

DataFrame():创建DataFrame格式的表 参数说明:

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。
  • index:索引值,或者可以称为行标签。
  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
  • dtype:数据类型。

可使用列表、字典的方式创建DataFrame

获取DataFrame

loc[]:返回指定的行,结果是一个Series数据

csv文件操作

to_csv():将DataFrame保存为csv文件

read_csv():打开csv文件作为csv对象

head(n):读取csv文件对象的前n行,n默认为5

tail(n):读取csv文件对象的后n行,n默认为5

info():获取csv文件对象的基本信息、行数、列数、各列的数据类型、缺失值

describe():数据的基本信息、包括均值、方差、最大值、最小值

其他文件操作

read_excel():保存为excel对象

read_sql():保存为sql对象

read_json():保存为json对象

read_html():保存为html对象

json格式文件操作

read_json():读取json格式的文件作为对象

to_string():返回为DataFrame格式

json_normalize():将内嵌的json格式转换为平常的键值对格式

例如:json文件内容: image.png Python代码:

import pandas as pd  
import json  
# 使用 Python JSON 模块载入数据  
with open('nested_list.json','r'as f:  
    data = json.loads(f.read())  
# 展平数据  
df_nested_list = pd.json_normalize(data, record_path =['students'])  
print(df_nested_list)

得到结果:

image.png