Python pandas数据流处理概述

563 阅读3分钟

image.png

「这是我参与2022首次更文挑战的第24天,活动详情查看:2022首次更文挑战

前言

强大易学的Python,关于文件操作提供从内置方法到支持第三方库,例如我们已经对openpyxl 模块中对Excel工作表,可以使用for循环遍历行、列的位置,对相应的单元格进行写入、编辑数据、保存打开文件操作外,还提供openpyxl.chart库对工作表格数据进行处理绘制图表等功能。

同时,也结合之前学习的requests模块访问Excel记录的接口内容,进行接口测试实操应用,具体详情可访问此链接

插一句,冬奥小熊猫的冰墩墩出圈成为全网最火的明星。憨态可掬的小熊猫捕获一大批大小朋友的喜爱和追捧。

关于熊猫,英文panda。好巧,Python语言,偶然得知也有一个Pandas的第三库。

第一印象,熊猫。名字好可爱,这个库是干啥用的呀?

image.png

好奇心驱使下,在网上搜索一番,咦也是对Excel文件处理的库。

因此,本期我们对Pandas库相关方法进行学习,Let's go~~~

1. pandas 概述

  • 什么是pandas?

    pandas 是开源的Python数据分析第三方库由NumFocus提供赞助的项目。

    • pandas 是基于Numpy 高效矩阵运算能力对数据进行分析的工具
    • pandas 主要有两种数据结构:series和DateFrame两种
    • pandas 在v0.25.o版本上终止对Python 2 的支持

    image.png

  • pandas 特点

    • pandas 基于CPython,可以快速高效读取数据
    • pandas 可以处理CSV、文本文件、Excel文件、SQL数据库和HDF5格式
    • pandas 能对数据进行智能数据对齐和数据缺失自动补齐
    • pandas 支持通过标签的切片、花式索引和大数据集的子集
    • pandas 对数据集进行高性能合并和连接
    • pandas 被广泛应用在神经科学、经济学、统计学等学术和商业领域
  • pandas 使用

    pandas 模块是基于numpy 矩阵运算的第三方库,因此我们在使用之前,需要pip安装

    pip install pandas
    

2. panda 读取Excel文件数据

  • Excel表格内容假设如下:

    image.png

  • 导入pandas库,使用import提前导入

    import pandas as pd
    
  • 读取name.xlsx文档

    • 方法一:读取默认的工作表数据

      df = pd.read_excel("name.xlsx")
      
      data = df.head()
      
      print("{0}".format(data))
      

      image.png

    • 方法二:指定工作表读取数据

      df = pd.read_excel("name.xlsx",sheet_name="api")
      data = df.head()
      print("{0}".format(data))
      

      image.png

3. pandas 访问Excel行列

  • 使用DataFrame,来读取指定行的数据

    读第一行数据

     df = pd.read_excel("name.xlsx",sheet_name="api")
    
     data = df[:1]
    
     print("{0}".format(data))
    
  • 获取工作表最大行

    data = df.max()
    
  • 获取工作表最小行

    data = df.min()
    
  • 使用标签来查询数据

    df = pd.read_excel("name.xlsx",index_col="name")
    
    data = df.loc["Kenty"]
    
    print("{0}".format(data))
    

    image.png

  • 指定条件获取行数据

    df = pd.read_excel("name.xlsx")
    
    data = df.loc[df["name"]=="Pony",["age","andress"]]
    
    print("{0}".format(data))
    

    image.png

  • 获取指定列的数据

    data = df["age"]
    
    print("{0}".format(data))
    

    image.png

  • 获取指定行列的数据

    • 逗号前面是行,逗号是列的范围
    # 全部行,前两列的数据
    data = df.iloc[:,:2]
    

总结

本期,我们对数据分析的pandas库对Excel 数据的读取、行、列数据操作进行简单学习。

以上是本期内容,欢迎大佬们点赞评论,下期见~~~