Numpy、Pandas、Matplotlib三者的利弊分析

660 阅读2分钟

「这是我参与2022首次更文挑战的第2天,活动详情查看:2022首次更文挑战

  • 这三个库是使用python进行数据分析中最常用到的,numpy通常用来进行矢量化的计算,pandas通常用来处理结构化的数据,而matplotlib是用来绘制出直观的图表。

  • Numpy:

    • 来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多,本身是由C语言开发。这个是很基础的扩展,其余的扩展都是以此为基础。数据结构为ndarray,一般有三种方式来创建。
  • Pandas:

    • 基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。最具有统计意味的工具包,某些方面优于R软件。数据结构有一维的Series,二维的DataFrame(类似于Excel或者SQL中的表,如果深入学习,会发现Pandas和SQL相似的地方很多,例如merge函数),三维的Panel(Pan(el) + da(ta) + s,知道名字的由来了吧)。
    • 学习Pandas你要掌握的是:

      • 1.汇总和计算描述统计,处理缺失数据 ,层次化索引
      • 2.清理、转换、合并、重塑、GroupBy技术
      • 3.日期和时间数据类型及工具(日期处理方便地飞起)
  • Matplotlib:

    • Python中最著名的绘图系统,很多其他的绘图例如seaborn(针对pandas绘图而来)也是由其封装而成。
    • 绘制的图形可以大致按照ggplot的颜色显示,但是还是感觉很鸡肋。但是matplotlib的复杂给其带来了很强的定制性。其具有面向对象的方式及Pyplot的经典高层封装。
    • 需要掌握的是:

      • 1.散点图,折线图,条形图,直方图,饼状图,箱形图的绘制。
      • 2.绘图的三大系统:pyplot,pylab(不推荐),面向对象
      • 3.坐标轴的调整,添加文字注释,区域填充,及特殊图形patches的使用