Go性能调优|青训营

111 阅读8分钟

前言

  • 性能优化的层面

img.png

  • 在保证接口稳定的情况下改进具体的实现

img_1.png

1.自动内存管理

自动内存管理主要管理的是动态内存(程序在运行时根据需求动态分配的内存)

自动内存管理也称为垃圾回收,主要目的是由程序语言的运行时系统管理动态内存,这样做有以下两方面的好处:

  • 避免手动内存管理,专注于实现业务逻辑
  • 保证内存使用的正确性和安全性,比如C语言中的内存多次释放:double-free problem, 释放后再次使用use-after-free problem。

由此可见,手动释放内存存在很多问题,如果使用不当的话,可能会引起程序的崩溃、漏洞,而自动内存管理可以帮我们自动处理这些问题。

自动内存管理有3个主要的核心任务:

  • 为新对象分配空间
  • 找到存活对象
  • 回收死亡对象的内存空间

1.1 相关概念

Go对自定内存管理的一段介绍

img_3.png

img_4.png

  • Mutator:业务线程,分配新对象,修改对象指向关系
  • Collector:GC线程,找到存活对象,回收死亡对象的内存空间
  • Serial GC:只有一个collector,会暂停(STW)
  • Parallec GC:支持多个collectors同时回收GC算法,会暂停(STW)
  • Concurrent GC:mutator(s)和collector(s)可以同时执行,Collectors必须感知对象指向关系的改变。

img_5.png

  • Concurrent GC进行内存回收时,业务线程和GC线程是同时进行的,所以存在着一定挑战难度,这个挑战主要是GC线程必须感知对象指向关系的改变。

img_6.png

1.2 追踪垃圾回收

追踪垃圾回收,当一个对象的指针指向关系不可达的时候,该对象就要被回收了。 追踪垃圾回收算法垃圾回收步骤:

  1. 标记根对象
    • 标记包括 静态变量、全局变量、常量、线程栈等
  2. 标记:找到可达对象
    • 求指针指向关系的传递闭包:从根对象触发,找到所有可达对象
  3. 清理:所有不可达对象
    • 将存活对象复制到另外的内存空间(Copying GC) img_7.png
    • 将死亡对象的内存标记为”可分配“(Marking-sweep GC) img_8.png
    • 移动并整理存活对象(Mark-compact GC) img_9.png

清理策略有很多种,在实际清理的时候应该根据对象的生命周期,使用不同的标记和清理策略。

1.3 分代GC

分代GC(Generational GC)是一种常见的内存管理方式,思想是基于分代假说(Generational hypothesis):

大多数对象很快就死掉了,很多对象在分配出来后很快就不再使用了。 每个对象都有年龄,也就是对象经历过GC的次数,比如经历了2次GC那么他的年龄就为2。

分代GC根据对象年龄的不同,把对象放在不同的区域,年轻代对象放在Young Generation区域,老年代放在Old Generation区域,

对年轻和老年的对象,制定不同的GC策略,降低整体内存管理的开销。

  • 年轻代为常规的对象分配,由于存活对象很少,可以采用copying collection算法,GC吞吐量很高。

  • 老年代内对象趋向于一直活着,反复复制开销较大,可以采用mark-sweep collection算法。

1.4 引用计数

img_10.png

引用计数管理内存的方式为每个对象都有一个与之相关联的引用数目,对象存活的条件为当且仅当引用数大于0。 引用计数管理内存的优点如下:

  • 内存管理的操作被平摊到程序执行过程中
  • 内存管理不需要了解runtime的实现细节,有一些库可以帮助实现引用计数,比如C++智能指针(smart pointer)。

当然引用计数也有缺点:

  • 维护引用计数的开销较大:通过原子操作保证对引用计数操作的原子性和可见性
  • 无法回收环形数据结构——weak reference img_11.png
  • 内存开销:每个对象都引入的额外内存空间存储引用数目 img_12.png
  • 回收内存时可能引发暂停——大的数据结构

2.Go内存管理及优化

在Go中内存分配是指对象在堆(heap)上开辟一块空间出来。

2.1 分块

Go是提前将内存分成一个一个的小块,当创建对象的时候,在内存中找到一个与对象尺寸最接近的一个块分配给他,就完成了一次内存分配。 img_13.png 内存分块的步骤:

  • 调用系统调用mmap()向OS申请一大块内存,例如4MB
  • 先将内存划分大块,例如8KB,称为mspan
  • 再将大块继续划分成特定大小的小块,用于对象分配
  • noscan mspan:分配不包含指针的对象——GC不需要扫描
  • scan mspan:分配包括指针的对象——GC需要扫描

2.2 缓存

img_14.png

  1. Go的内存分配借鉴了TCMalloc(Thread Caching)内存分配器的实现。
  2. Go的内存分配也是做了很多级缓存,从而加快整体对象分配的速度。
  3. Go在分配内存的时候,都是Goroutine上面执行的代码去分配一块内存,如下图所示。
    • 从g出发,找到m和p,在p上有一个数据接口mcache,在mcache中存了一组mspans,每个mspans的大小是不一样的。
    • 在mspans里面找到一个最合适的mspan里的一个空余的块,找到这个块之后,返回出去,就完成了一次对象的分配。
    • 如果mcache里的mspan都是满的,那就就会从下一个级别的缓存,也就是mcentral里面找一个带有空余空间的mspan,并将其填充的mcache里面去,然后再继续分配。
    • 如果一个mspan内存活动的对象都已经清理干净了,那他的所有的块都是可以使用的,Go的内存分配器不会把这块空间立刻还给OS,而是把这块空间缓存起来,如果还要分配的时候,就直接拿去分配。

2.3 内存管理优化及Balanced GC

  • 对象分配是非常高频的操作:每秒分配GB级别的内存
  • 小对象占比较高
  • Go内存分配比较耗时
  • 分配路径长: g-> m-> p -> mcache -> mspan -> memory block -> return pointer
  • pprof:对象分配的函数是民频案调用的函数之一

img_15.png

Balanced GC

img_16.png

  • 每个g都绑定大块内存(1 KB),称作goroutine allocation buffer (GAB)
  • GAB用于noscan类型的小对象分配: < 128 B
  • 使用三个指针维护GAB: base, end, top
  • Bump pointer (指针碰撞)风格对象分配
  • 无须和其他分配请求互斥
  • 分配动作简单高效

img_17.png

  • GAB对于Go内存管理来说是一个对象
  • 本质:将多个小对象的分配合井成大对象的分配
  • 问题: GAB的对象分配方式会导致内存被延迟释放
  • 方案:移动GAB中存活的对象
    • 当GAB总大小超过一定阈值时,将GAB中存活的对象复制到另外分配的GAB中
    • 原先的GAB可以释放,避免内存泄露
    • 本质:用copying GC的算法管理小对象

3.编译器和静态分析

3.1 编译器的结构

img_18.png

  • 重要的系统软件
    • 识别符合语法和非法的程序
    • 生成正确且高效的代码
  • 分析部分(前端 front end)
    • 词法分析,生成词素(lexeme)
    • 语法分析,生成语法树(parse tree)
    • 语义分析,收集类型信息,进行语义检查
    • 生成中间代码,生成(IR)中间表示
  • 综合部分(后端 back end)
    • 优化中间代码
    • 生成目标代码

3.2 静态分析

  • 静态分析:不执行程序代码,推到程序的行为,分析程序的性质
  • 控制流:程序执行的流程
  • 数据流:数据在控制流上的传递

通过分析控制流和数据流,可以知道更多关于程序的性质,从而进行优化。

img_18.png

3.3 过程内和过程间分析

img_20.png

4.Go编译器优化

  • 编译优化的思路:
    • 场景:面向后端长期执行任务
    • Tradeoff:用编译时间换取更高效的机器码
  • Beast mode:
    • 函数内联
    • 逃逸分析
    • 默认栈大小调整
    • 边界检查消除
    • 循环展开
    • ......

4.1 函数内联(Inlining)

  • 内联:将被调用函数的函数体(callee)的副本替换到调用位置上(caller)上,同时重写代码以反应参数的绑定
  • 优点:
    • 消除函数调用的开销,例如传递参数、保存寄存器等
    • 将过程间分析转换为过程内分析,帮助其他优化,例如逃逸分析
  • 缺点:
    • 函数体变大,instruction cache(icache)不友好
    • 编译生成的Go镜像变大
  • 函数内联在大多数情况下是正向优化
  • 内联策略:
    • 调用和被调函数的规模
    • ......

img_22.png

img_23.png

  • Beast mode img_24.png

4.2 逃逸分析

img_21.png