Python数据分析——Pandas
标注:本博客的图片均来自(Pandas 数据结构 – DataFrame | 菜鸟教程 (runoob.com))系列
Pandas
Pandas,衍生自panel data,可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
Pandas的数据结构图:
Record
一行数据
Series
一列数据
Series():创建一列数据
参数说明:
- data:一组数据(ndarray 类型)。
- index:数据索引标签,如果不指定,默认从 0 开始。
- dtype:数据类型,默认会自己判断。
- name:设置名称。
- copy:拷贝数据,默认为 False。
DataFrame
DataFrame():创建DataFrame格式的表
参数说明:
- data:一组数据(ndarray、series, map, lists, dict 等类型)。
- index:索引值,或者可以称为行标签。
- columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
- dtype:数据类型。
可使用列表、字典的方式创建DataFrame
获取DataFrame
loc[]:返回指定的行,结果是一个Series数据
csv文件操作
to_csv():将DataFrame保存为csv文件
read_csv():打开csv文件作为csv对象
head(n):读取csv文件对象的前n行,n默认为5
tail(n):读取csv文件对象的后n行,n默认为5
info():获取csv文件对象的基本信息、行数、列数、各列的数据类型、缺失值
describe():数据的基本信息、包括均值、方差、最大值、最小值
其他文件操作
read_excel():保存为excel对象
read_sql():保存为sql对象
read_json():保存为json对象
read_html():保存为html对象
json格式文件操作
read_json():读取json格式的文件作为对象
to_string():返回为DataFrame格式
json_normalize():将内嵌的json格式转换为平常的键值对格式
例如:json文件内容:
Python代码:
import pandas as pd
import json
# 使用 Python JSON 模块载入数据
with open('nested_list.json','r') as f:
data = json.loads(f.read())
# 展平数据
df_nested_list = pd.json_normalize(data, record_path =['students'])
print(df_nested_list)
得到结果: