Python numpy之结构化数据类型前言众所周知，numpy 库是科学计算的基础库。我们前面学习了numpy nd

「这是我参与2022首次更文挑战的第8天，活动详情查看：2022首次更文挑战」

前言

众所周知，numpy 库是科学计算的基础库。我们前面学习了numpy ndarray 对象要求数组中数据元素同质。同时，numpy 数组元素值内存空间大小一致，并且底层采用C-order（行优先存储）或者Fortran-order（列优先存储）两种存储方式。使之numpy 数组相比Python list计算速度和内存上更加有优势。

在 numpy 索引与切片和 numpy 高级索引中，知道了数组也与Python list等一样支持索引。numpy 数组索引通过非负整数元组、布尔值、其他数组或者整数来实现的。

大伙肯定和我一样，numpy 数据要求数据类型都必须要同质的，哪面对不同类型的数据需要计算咋搞？

我们都知道，如果使用Python内置库中，我们都知道可以支持key-value字典的数据类型，可以轻松实现我们上述的场景。

哪如果numpy 如果不支持这一场景，我们就放弃使用它，哪它怎么会是科学Python 和PyData生态系统的核心？

一通网上查阅，哈哈，终于被我们发现了，numpy 数组还有一种叫结构化数组的概念。

本期，我们将学习 numpy 库的结构化数组相关知识，Let's go~

1. numpy 结构化数组概述

什么是结构化数组？

numpy 结构化数组是通过dtype 定义的字段组成的一组ndarray数组。

我们使用Python中dict可以轻松使用key-value形式、list或者tuple就可以定义如下数据。

Python dict 字典实现：

stu1 = {"name":"Tom","age":10,"weight":50}
stu2 = {"name":"Anne","age":12,"weight":42}
stu_list = [stu1,stu2]

Python list+tuple实现

stu_list = [("Tom",10,50),("Anne",12,42)]

对于numpy 结构化数组，通过 dtype 定义每个字段数据类型，实现如下

>>> stu_list = np.array([("Tom",10,50),("Anne",12,42)],dtype=[("name","U10"),("age","i4"),("weight","i8")])
>>> stu_list
array([('Tom', 10, 50), ('Anne', 12, 42)],
      dtype=[('name', '<U10'), ('age', '<i4'), ('weight', '<i8')])
>>>

numpy 数组中，我们可以通过dtype 查询数组中元素的数据类型。

在上述案例中，我们定义name字段数据类型为Unicode,age字段为int32,weight字段为int64

numpy 支持的数据类型与C语言的数据类型对应，常见的有如下几个及对应的内置码

数据类型	内置码	意义
int8	i1	字节（-128 to 127）
int16	i2	整数,16位字节
int32	i4	整数,32位字节
int64	i8	整数,64位字节
float16	f2	浮点型，16位字节
float32	f4	浮点型，32位字节
float64	f8	浮点型，64位字节
bool_	b	布尔类型
Unicode	U	Unicode编码
String	S	字符串

结构化数组特点
- 结构化数据类型创建来源于 C 语言数据结构，并且可以共享内存空间
- numpy 结构化数组是解决C代码接口和结构化缓冲区的低级操作
- 结构化数组支持数据嵌套、联合，并允许控制其内存布局
- 结合化数组因为基于C结构的内存布局，不适合操作表格数据导致缓存行为不佳

2. 结构化数据类型

通过上述，我们知道numpy 结构化数组与普数组主要区别是，在创建时需要通过dtype定义数组中数据字段类型。

因此，结构化数据类型可以被看做一定长度的字节序列（itemsize）,通常被解释为字段的集合。

通常字段中主要由三部分组成：字段名称，数据类型和字节偏移量(可选)

3. 结构化数据类型创建

在 numpy 库中我们可以使用 numpy.dtypej来进行创建结构化数据类型。

方法一：元组列表形式

在结构化数据类型创建可以使用元组形式进行定义。
- 每一个元组表示一个字段的，形式如(name,datatype,shape)
- 元组中的shape 字段是可选字段
- datatype可以定义为任何类型
```
>>> np.dtype([("address","S5"),("family","U10",(2,2))])
dtype([('address', 'S5'), ('family', '<U10', (2, 2))])
>>>
```
方法二：以逗号分隔

在numpy 库中可以支持带逗号分隔基本格式字符串来定义dtype。
- 逗号分隔基本格式字符串形式如："i7,f4,U10"
- 字段中name系统自动生成如：f0,f1等形式
- 字段中的偏离量系统自动确认
```
>>> np.dtype("i8,S4,f4")
dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4')])
>>> np.dtype("i8,S4,(5,3)f4")
dtype([('f0', '<i8'), ('f1', 'S4'), ('f2', '<f4', (5, 3))])
>>>
```
方法三：以字典形式表示各参数

以Python 字典 key-value 形式定义每个字段参数类型。
- 字典形式定义字段形式如：{"name":[],"formats":[],"offsetd":[],"itemsize"：}
- name 代表：长度相同的字段名称列表
- formats 代表： dtype基本格式列表
- offsets: 偏移量列表，可选字段。
- itemsize：描述dtype总大小，可选字段
字典形式表示字段内容，可以允许控制字段偏离量和itemsize大小
```
>>> np.dtype({"names":["name","age"],"formats":["S6","i4"]})
dtype([('name', 'S6'), ('age', '<i4')])
>>> np.dtype({"names":["name","age"],"formats":["S6","i4"],"offsets":[2,3],"itemsize":12})
dtype({'names':['name','age'], 'formats':['S6','<i4'], 'offsets':[2,3], 'itemsize':12})
>>>
```
方法四：以字典形式表示字段名称

此方法，是以字典的key 值表示字段名（name），value 值以元组形式表示指定类型和偏离量。

在Python 3.6 版本中，不保留字典的顺序操作，而对于numpy 结构化dtype中字段的顺序是有意义的。因此，该方法官方不建议使用该方法创建
```
>>> np.dtype({"name":("S6",0),"age":("i8",1)})
dtype({'names':['name','age'], 'formats':['S6','<i8'], 'offsets':[0,1], 'itemsize':9})
>>>
```

总结

本期，主要对numpy 模块结构化数组的认识以及创建结构化数据类型四种方法。

结构化数据类型主要由字段名称、数据类型、偏移量三部分组成。

以上是本期内容，欢迎大佬们点赞评论，下期见~

Python numpy之结构化数据类型

前言

1. numpy 结构化数组概述

什么是结构化数组？

结构化数组特点

2. 结构化数据类型

3. 结构化数据类型创建

方法一：元组列表形式

方法二：以逗号分隔

方法三：以字典形式表示各参数

方法四：以字典形式表示字段名称

总结