Redis数据结构五之整数集合

104 阅读4分钟

本文首发于公众号:Hunter后端

原文链接:Redis数据结构五之整数集合

整数集(intset)是集合键的底层实现之一,当一个集合只包含整数值元素,并且这个集合的元素数量不多时,Redis 就会使用整数集合作为集合键的底层实现。

整数集合可以保存类型为 int16_t,int32_t,int64_t 的整数值,并且保证集合中不会出现重复元素。

1、整数集合

以下是整数集合的结构:

typedef struct intset{
    // 编码方式
    uint32_t encoding;
    
    // 集合包含的元素数量
    uint_32_t length;
    
    // 保存元素的数组
    int8_t contents[];
}

其中,encoding 属性的值为 INTSET_ENC_INT16INTSET_ENC_INT32INTSET_ENC_INT64,分别表示 contents 数组里存储的整数类型是 int16_tint32_tint64_t

当 encoding 的值为 INTSET_ENC_INT16,contents 数组里每个项都是 int16_t 类型的整数值,范围在 -2**15 ~ 2 ** 15 - 1 之间,也就是 -32768 ~ 32767

当 encoding 的值为 INTSET_ENC_INT32,contents 数组里每个项都是 int32_t 类型的整数值,范围在 -2**31 ~ 2 ** 31 - 1 之间

当 encoding 的值为 INTSET_ENC_INT64,contents 数组里每个项都是 int64_t 类型的整数值,范围在 -2**63 ~ 2 ** 63 - 1 之间

length 属性记录的是整数集合中包含的元素数量,也就是 contents 数组的长度。

contents 数组中的数值按值的大小从小到大有序排列,并且不包含重复项。

contents 数组中包含的元素类型都是一样的,比如当前数组中元素的类型是 int16_t,如果要向其中插入的整数值的类型是 int32_t,那么 contents 数组就要将 contents 数组的元素类型先升级再插入,这个就涉及升级的操作。

2、升级

当我们要添加到整数集合中的元素的类型比现有所有元素类型都要长时,整数集合需要进行升级(upgrade)操作,然后才能将新元素插入整数集合中。

升级并添加新元素共分为三步进行:

  1. 根据新元素类型,扩展整数集合底层数组的空间大小,并为新元素分配空间
  2. 将底层数组所有元素转换成与新元素相同的类型,并将类型转换后的元素放在正确的位上,且维持其有序性不变
  3. 将新元素添加到底层数组里面

对于整数的三种类型,int16_t,int32_t,int64_t,每种类型的数据占用的位数分别是 16,32,64

假设当前 contents 数组有三个元素:1,2,3。类型是 int16_t,对应的元素和位数展示如下:

0-15位16-31位32-47位
元素123

接下来需要添加一个整数,65535,类型是 int32_t,那么就需要先分配额外的空间,新分配的空间长度等于元素总数 * 新类型的位数 - 原有空间长度 = 4 * 32 - 48 = 80:

0-15位16-31位32-47位48-127位
元素123新分配空间

然后分别将元素 3,2,1 移动到对应的空间内,再将新元素 65535 放在对应的空间上:

0-31位32-63位64-95位96-127位
元素12365535

然后将整数集合 encoding 属性的值从 INTSET_ENC_INT16 改为 INTSET_ENC_INT32,length 属性的值从 3 改为 4。

3、升级的好处

为整数集合使用升级策略有两个好处,一个是提升整数集合的灵活性,一个是尽可能的节约内存

因为 C语言是静态类型语言,通常不会将两种不同类型的值放在一个数据结构里,但是整数集合可以通过自动升级底层数组来适应新元素,所以我们可以随意将 int16_t,int32_t,int64_t 类型的整数添加到集合中,而不必担心出现类型错误

另外,要让数组可以同时保存 int16_t,int32_t,int64_t 这三种类型的整数,最简单的方式是直接使用 int64_t 类型的数组去保存数据,但这样的话如果元素都是 int16_t,int32_t 类型的值,那么会出现浪费内存的情况。

因此现在升级策略可以尽量节约内存。

4、降级

整数集合不支持降低操作,一旦对数组进行了升级,编码就会一直保持升级后的状态。

比如前面的数组 1,2,3,65535,如果我们删除了 65535,整数集合还是会维持原有 INTSET_ENC_INT64 的编码,底层数组也还是 int64_t 类型的。