Python numpy之ndarray

937 阅读4分钟

「这是我参与2022首次更文挑战的第2天,活动详情查看:2022首次更文挑战

复习回顾

numpy 模块通常被称为 matplotlib 模块伴侣,numpy可以方便快捷地对大量数据进行科学计算,为matplotlib 绘制图表提供数据。

在上一期python numpy 模块中对概述介绍了numpy 模块安装、使用方法、特点等入门知识。

  • numpy 模块是一个开源的第三方Python库,常用于科学和工程领域,是科学Python和PyData 生态系统的核心。

  • numpy 模块易学易用的特点,基本上覆盖了初学者到先进科学研究员的所有人群。

  • numpy 模块除了在matplotlib上应用,它还在Pandas、Scipy、scikit-learn等科学Python中。

  • numpy 模块也包含多维数组和矩阵数据结构,它专门提供了具有n维数组对象的ndarray,以及对其进行有效操作的方法。

  • numpy 模块也可用于对数组执行各种数学运算,提供高级数学函数库,以及数组和矩阵的操作。

众所周知,numpy 模块中数组对象是其核心功能,我们本期重点来学习numpy 数组相关内容,Let's go~~

1. 什么是 ndarray?

  • ndarray 概念

    数组是numpy 模块核心数据结构。数组是值的网络,它的内部包含有原始数据、如何定义元素以及如何解释元素的信息。我们可以使用各种方式索引元素网格。

    ndarray 是 numpy 模块中定义 n维数组类型。ndarray 可以描述同种类型project的集合。

    • 同种数据类型:numpy 数组中的所有元素都是同种类类型,如int32,float64等
    • 同大小内存空间:每个project占用相同大小内存块
    • 同方式解释:每个project由object数据类型指定,,其中一个与每个数组相关联
    • 可以N个整数对project进行索引
  • ndarray 内部关系

    从数组中我们可以提取python对象表示的如索引是numpy 内置数组标量类型之一,我们可以通过使用数组标量来轻松操作复杂的数据排列。

    image.png

    通过以上ndarray 内部结构,我们可以看到 ndarray 主要由 dtype、shape、stride组成

    • ndarray 指向内存映射地址的指针-data对象
    • ndarray 元素解释形象-dtype对象
    • ndarray 每个维度的元素之间的间隔-strides对象(tuple)
    • ndarray 对每个维度的数量和大小的描述-shape对象(tuple)

    以上四个python对象就可以在ndarray 中通过索引的方式找到指定位置的数据。

    同时我们也调用 np.array().flags 获取字节序、读写权限等信息,可知ndarray 底层是C和Fortran 实现的。

      C_CONTIGUOUS : True
      F_CONTIGUOUS : False
      OWNDATA : True
      WRITEABLE : True
      ALIGNED : True
      WRITEBACKIFCOPY : False
      UPDATEIFCOPY : False
    

2. ndarray 内存结构

  • ndarray 内存结构

    我们通过 numpy.array 方法创建一个2维数组

    numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
    
    import numpy as np
    
    a = np.array([[1,2],[4,5],[7,8]])
    
    print("dim:",a.ndim)
    print("strides:",a.strides)
    print("dtype:",a.dtype)
    print("data:",a.data)
    print("shape:",a.shape)
    print(a)
    

通过array对象调用ndarray 标量对象,可以获知ndarray 维度大小、元素类型、间隔等信息

image.png

通过上述图,我们可以知道 ndarray 内存主要划分为两部分:

  • raw data: 计算机一段连续的block,存储在C或者Fortran中的数组
  • metdata:有关原始数组数据的信息

4. ndarray vs list

  • ndarray 特点

    • ndarray 要求所有数据都是同种类型的
    • 每个数据占用空间一样
    • 数组中存储的数据是一段连续的空间
  • list 特点

    • 可以容纳不同数据类型
    • list 中只存放对象的引用,再通过引用找到具体的对象
    • 对象的物理地址并不是连续的

image.png

所以,综上所述,ndarray 查找数据运行效率比list快,同时ndarray 存储的数据是连续的一段空间,对比list 对象物理地址分散的,ndarray 比 list 更省空间。

总结

本期对numpy 模块核心之一的ndarray 数组对象内存原理、与python list对比等知识学习。

ndarray 里的所有的project元素都是同类型数据,并且存储空间是连续的。

不管查找数据,还是存储数据,数据计算等功能,都明显优于Python list。

以上是本期内容,欢迎大佬们点赞评论,我们下期见~~