Python numpy之结构化数据类型

1,474 阅读5分钟

image.png

「这是我参与2022首次更文挑战的第8天,活动详情查看:2022首次更文挑战

前言

众所周知,numpy 库是科学计算的基础库。我们前面学习了numpy ndarray 对象要求数组中数据元素同质。同时,numpy 数组元素值内存空间大小一致,并且底层采用C-order(行优先存储)或者Fortran-order(列优先存储)两种存储方式。使之numpy 数组相比Python list计算速度和内存上更加有优势。

在 numpy 索引与切片 和 numpy 高级索引中,知道了数组也与Python list等一样支持索引。numpy 数组索引通过非负整数元组、布尔值、其他数组或者整数来实现的。

大伙肯定和我一样,numpy 数据要求数据类型都必须要同质的,哪面对不同类型的数据需要计算咋搞?

我们都知道,如果使用Python内置库中,我们都知道可以支持key-value字典的数据类型,可以轻松实现我们上述的场景。

哪如果numpy 如果不支持这一场景,我们就放弃使用它,哪它怎么会是科学Python 和PyData生态系统的核心?

一通网上查阅,哈哈,终于被我们发现了,numpy 数组还有一种叫结构化数组的概念。

image.png

本期,我们将学习 numpy 库的结构化数组相关知识,Let's go~

1. numpy 结构化数组概述

  • 什么是结构化数组?

    numpy 结构化数组是通过dtype 定义的字段组成的一组ndarray数组。

    我们使用Python中dict可以轻松使用key-value形式、list或者tuple就可以定义如下数据。

    image.png

    Python dict 字典实现:

    stu1 = {"name":"Tom","age":10,"weight":50}
    stu2 = {"name":"Anne","age":12,"weight":42}
    stu_list = [stu1,stu2]
    

    Python list+tuple实现

    stu_list = [("Tom",10,50),("Anne",12,42)]
    

    对于numpy 结构化数组,通过 dtype 定义每个字段数据类型,实现如下

    >>> stu_list = np.array([("Tom",10,50),("Anne",12,42)],dtype=[("name","U10"),("age","i4"),("weight","i8")])
    >>> stu_list
    array([('Tom', 10, 50), ('Anne', 12, 42)],
          dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<i8')])
    >>>
    

    numpy 数组中,我们可以通过dtype 查询数组中元素的数据类型。

    在上述案例中,我们定义name字段数据类型为Unicode,age字段为int32,weight字段为int64

    numpy 支持的数据类型与C语言的数据类型对应,常见的有如下几个及对应的内置码

    数据类型内置码意义
    int8i1字节(-128 to 127)
    int16i2整数,16位字节
    int32i4整数,32位字节
    int64i8整数,64位字节
    float16f2浮点型,16位字节
    float32f4浮点型,32位字节
    float64f8浮点型,64位字节
    bool_b布尔类型
    UnicodeUUnicode编码
    StringS字符串
  • 结构化数组特点

    • 结构化数据类型创建来源于 C 语言数据结构,并且可以共享内存空间
    • numpy 结构化数组是解决C代码接口和结构化缓冲区的低级操作
    • 结构化数组支持数据嵌套、联合,并允许控制其内存布局
    • 结合化数组因为基于C结构的内存布局,不适合操作表格数据导致缓存行为不佳

2. 结构化数据类型

通过上述,我们知道numpy 结构化数组与普数组主要区别是,在创建时需要通过dtype定义数组中数据字段类型。

因此,结构化数据类型可以被看做一定长度的字节序列(itemsize),通常被解释为字段的集合。

通常字段中主要由三部分组成:字段名称,数据类型和字节偏移量(可选)

image.png

3. 结构化数据类型创建

在 numpy 库中我们可以使用 numpy.dtypej来进行创建结构化数据类型。

  • 方法一:元组列表形式

    在结构化数据类型创建可以使用元组形式进行定义。

    • 每一个元组表示一个字段的,形式如(name,datatype,shape)

    • 元组中的shape 字段是可选字段

    • datatype可以定义为任何类型

    >>> np.dtype([("address","S5"),("family","U10",(2,2))])
    dtype([('address', 'S5'), ('family', '<U10', (2, 2))])
    >>>
    
  • 方法二:以逗号分隔

    在numpy 库中可以支持带逗号分隔基本格式字符串来定义dtype。

    • 逗号分隔基本格式字符串形式如:"i7,f4,U10"

    • 字段中name系统自动生成如:f0,f1等形式

    • 字段中的偏离量系统自动确认

    >>> np.dtype("i8,S4,f4")
    dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4')])
    >>> np.dtype("i8,S4,(5,3)f4")
    dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4', (5, 3))])
    >>>
    
    
  • 方法三:以字典形式表示各参数

    以Python 字典 key-value 形式定义每个字段参数类型。

    • 字典形式定义字段形式如:{"name":[],"formats":[],"offsetd":[],"itemsize":}
    • name 代表:长度相同的字段名称列表
    • formats 代表: dtype基本格式列表
    • offsets: 偏移量列表,可选字段。
    • itemsize: 描述dtype总大小,可选字段

    字典形式表示字段内容,可以允许控制字段偏离量和itemsize大小

    >>> np.dtype({"names":["name","age"],"formats":["S6","i4"]})
    dtype([('name', 'S6'), ('age', '<i4')])
    >>> np.dtype({"names":["name","age"],"formats":["S6","i4"],"offsets":[2,3],"itemsize":12})
    dtype({'names':['name','age'], 'formats':['S6','<i4'], 'offsets':[2,3], 'itemsize':12})
    >>>
    
    
  • 方法四:以字典形式表示字段名称

    此方法,是以字典的key 值表示字段名(name),value 值以元组形式表示指定类型和偏离量。

    在Python 3.6 版本中,不保留字典的顺序操作,而对于numpy 结构化dtype中字段的顺序是有意义的。因此,该方法官方不建议使用该方法创建

    >>> np.dtype({"name":("S6",0),"age":("i8",1)})
    dtype({'names':['name','age'], 'formats':['S6','<i8'], 'offsets':[0,1], 'itemsize':9})
    >>>
    
    

总结

本期,主要对numpy 模块结构化数组的认识以及创建结构化数据类型四种方法。

结构化数据类型主要由字段名称、数据类型、偏移量三部分组成。

以上是本期内容,欢迎大佬们点赞评论,下期见~