还不懂go的slice,map,channl底层原理?一文把握

2,572 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第9天,点击查看活动详情

0. 前序

slice,map,channl是我们Go语言中最最常用的几个数据结构,对于这些做到知根知底,对于我们建立知识体系以及优化代码都有着很重要的意义,所以本文,我们深入这三个数据结构的底层,剖析其设计思想。

1. slice

1.1 slice的创建

slice的创建主要有两种方式,第一种方式是直接创建

var sli []int
sli = make([]int, len, cap) // cap可以省略

//或者
sli := make([]int, len, cap) // cap可以省略

另一种方式是借助array创建:

arr := []int{1,2,3,4,5}

sli := arr[sta:end:cap] // :cap可以省略,以这种方式创建的sli,其cap为sta到arr的最后一位

1.2 数据结构

slice底层数据结构如下:

type {
    array unsafe.Pointer // 指针
    len int // 现有长度
    cap int // 容量 
}

在Go语言中,所有的参数传递都是值传递,slice也是如此,不过由于其底层的指针,在其传递到另一个函数后,仍能对其地址对应位置的值做修改,然而,当发生扩容操作时,由于会重新分配地址,就会导致问题的发生,下面我们就来介绍slice的扩容机制。

1.3 扩容机制

在进行append()并且cap不够用的时候,会触发扩容操作(copy()操作不会触发扩容)。

  • 容量的确定
  1. 如果期望容量大于当前容量的两倍就会使用期望容量;
  2. 如果当前切片的长度小于 1024 就会将容量翻倍;
  3. 如果当前切片的长度大于 1024 就会每次增加 25% 的容量,直到新容量大于期望容量;

上面所说的是一个容量的初步确定步骤,当数据类型size为1字节,8字节,或者2的倍数时,会根据内存大小进行向上取整,进行内存对齐,之后返回新的扩容大小。

内存对齐的一个重要原因是因为Go进行内存分配时是类似于伙伴系统的固定的内存块,对齐这个内存可以最大化的人利用分配到的空间。

2. map

2.1 map创建

m = make(map[int]int) // 需要注意 make(map)返回的是一个指针 

2.2 数据结构

type hmap {
    count int
    flags uint8 // map当前是否处于写入状态等
    B     uint8 // 2的B次幂表示当前map中桶的数量(buckets的长度)
    noverlow uint16 // map中溢出桶的数量,当溢出桶太多时,map会进行等量扩容
    hash0 uint32 //生成hash的随机数种子
    
    buckets unsafe.Pointer //当前map对应的桶的指针
    oldbuckets unsafe.Pointer // 扩容时的旧桶
    nevacuate uintptr //扩容时,用于标记当前旧桶中小于nevacute的数据都已经转移到了新桶
    
    extra *mapextra //存储map的溢出桶
}

Go中的map的数据都是存在bmap的数据结构中的,最多放8个kv对,溢出桶的设计与GC有关系,如果map为内联数据类型时,map数据结构里的指针就只有溢出桶了,这个时候就可以避免遍历map。

2.3 扩容机制

当我们插入一个k-v对时,需要确定他应该插入到bucket数组的哪一个槽中。bucket数组的长度为2^B,即2的次幂数,而2^B-1转换成二进制后一定是低位全1,高位全0的形式,因此在进行按位与操作后,一定能求得一个在[0,2^B-1]区间上的任意一个数,也就是数组中的下标位置,相较之下,能获得比取模更加优秀的执行效率。

涉及到扩容,每一次bucket数组都会变为现在的两倍,方便我们进行hash迁移。

map触发扩容的条件有两种:

  1. 负载因子大于6.5时(负载因子 = 键数量 / bucket数量)
  2. overflow的数量达到2^min(15,B)

等量扩容 所谓等量扩容,并不是扩大容量,而是bucket数量不变,重新做一遍类似增量扩容的搬迁动作,把松散的键值对重新排列一次,以使bucket的使用率更高,从而保证更快的存取速度。

3. channl

3.1 数据结构

type hchan struct {
    qcount   uint           // total data in the queue
    dataqsiz uint           // size of the circular queue
    buf      unsafe.Pointer // points to an array of dataqsiz elements
    elemsize uint16
    closed   uint32
    elemtype *_type // element type
    sendx    uint   // send index
    recvx    uint   // receive index
    recvq    waitq  // list of recv waiters
    sendq    waitq  // list of send waiters

    // lock protects all fields in hchan, as well as several
    // fields in sudogs blocked on this channel.
    //
    // Do not change another G's status while holding this lock
    // (in particular, do not ready a G), as this can deadlock
    // with stack shrinking.
    lock mutex
}

image.png

3.2 过程详解

channl的入队与出队操作都是都是加锁的,以此来保证并发安全。

当队列满了再插入数据时,插入线程g会进入wait状态并且挂在sendq队列上,等取出元素时会将其唤醒,空队取元素同理。