高性能Go语言发行版优化和落地实践 | 青训营笔记本节课主要讲述了自动内存管理，Go语言的内存管理及优化，编译器和静态分

这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇笔记

自动内存管理

1.1 自动内存管理

动态内存
- 程序在运行时根据实际需求动态分配到内存：c语言中的malloc()
自动内存管理（垃圾回收）：由程序语言的运行时系统来管理动态内存
- 避免手动内存管理，专注于实现业务逻辑
- 保证内存使用的正确性和安全性：double-free problem，use-after-free problem
主要核心的三个任务
- 为新对象分配空间
- 找到存活对象
- 回收死亡对象的内存空间

1.1.1 GC相关概率（扫盲）

Auto memory management: 自动内存管理
Grabage collction: 垃圾回收
Mutator：业务线程，分配新对象，修改对象指向关系
Collector: GC 线程，找到存活对象对象，回收死亡对象的内存空间

Serial GC：只有一个collector

Parallel GC: 并行 GC，支持多个collectors同时回收的GC算法

Concurrent GC: 并发 GC，支持 mutator(s) 和 collector(s) 同时执行的 GC 算法

Collectors 必须感知对象指向关系的改变！

评价GC算法

1.1.2 追踪垃圾回收

对象被回收的条件：指针指向关系不可达的对象

步骤1：标记根对象，根对象包括静态变量、全局变量、常量、线程栈等

步骤2：标记-找到可达对象：求指针指向关系的传递闭包，即从根对象出发，找到所有可达对象

步骤3：清理所有不可达对象，根据对象的生命周期不同，使用不同的标记和清理策略：包括Copying GC、Mark-sweep GC、Mark-compact GC

Copying GC: 将存活对象从一块内存空间复制到另外一块内存空间，原先的空间可以直接进行对象分配

Mark-sweep GC: 将死亡对象所在内存块标记为可分配，使用 free list 管理可分配的空间

3. Mark-compact GC: 移动并整理存活对象，将存活对象复制到同一块内存区域的开头

分代GC(Generational GC)

分代假说(Generational hypothesis): most objexts die young
Intuition：很多对象在分配出来后很快就不再使用了
每个对象都有年龄：年龄即经历过GC的次数
目的，对年轻和老年的对象，制定不同的GC策略，降低整体内存管理的开销
不同年龄的对象处于heap的不同区域
年轻代(Young generation)
- 常规的对象分配
- 由于存活对象很少，可以采用copying collection
- GC吞吐率很高

老年代(Old generation)
- 对象趋向于一直活着
- 可以采用Mark-sweep GC

引用计数

每个对象都有一个与之关联的引用数目
对象存活条件：当且仅当引用数大于0

优点：
1. 内存管理的操作被平摊到程序执行过程中
2. 内存管理不需要了解runtime的实现细节：C++智能指针(smart pointer)
缺点
1. 维护引用计数的开销较大：通过原子操作保证对引用计数操作的原子性和可见性
2. 无法回收环形数据结构-weak reference是一种相应的解决策略
3. 内存开销：每个对象都引入了额外内存空间存储引用数目
4. 回收内存时依然可能引发暂停

Go内存管理及优化

Go 内存分配-分块

目标：为对象在heap上分配内存
提前将内存分块
- 调用系统调用 mmap() 向 OS 申请一大块内存，例如 4 MB
- 先将内存划分成大块，例如 8 KB，称作 mspan
- 再将大块继续划分成特定大小的小块，用于对象分配
- noscan mspan: 分配不包含指针的对象 —— GC不需要扫描
- scan mspan: 分配包含指针的对象 —— GC需要扫描

对象分配：根据对象的大小，选择最合适的块返回

Go 内存分配-缓存

Go 内存管理构成了多级缓存机制（mspan, mcache 和 mcentral 构成了内存管理的多级缓存机制），从 OS 分配得的内存被内存管理回收后，也不会立刻归还给 OS，而是在 Go runtime 内部先缓存起来，从而避免频繁向 OS 申请内存。内存分配的路线图如下。
每个p包含一个mcache用于快速分配，用于为绑定于p上的g分配对象
mcache管理一组mspan
当mcache中的mspan分配完毕，向mctentral申请带有未分配块的mspan加到mcache中，然后将mcache中满的交换出去
当mspan中没有分配的对象, mspan会被缓存在mcentral 中，而不是立刻释放并归还给 OS

Go内存管理的问题

对象分配是十分高频的操作：每秒分配GB级别的内存
小对象占比较高
Go内存分配比较耗时
- 分配路径长：g -> m -> p -> mcache -> mspan -> memory block -> return pointer
- pprof：对象分配的函数是最频繁调用的函数之一

优化案例

字节跳动，优化方案-Balanced GC

每个g都绑定一大块内存（1KB），称作goroutine allocation buffer（GAB）
GAB用于noscan类型的小对象分配：< 128 B，其他的对象依旧走mcache策略（比如scan和大于128 B的noscan）
使用三个指针维护GAB：base，end，top
Bump pointer（指针碰撞）风格对象分配
- 无需和其他的分配请求互斥（即不用跟其他的p竞争资源）
- 分配动作简单高效
核心：将 noscan对象在 per-g allocation buffer (GAB) 上分配，并使用移动对象 GC 管理这部分内存，提高对象分配和回收效率
同原先调用 mallocgc() 进行对象分配的方式相比，balanced GC 缩短了对象分配的路径，减少了对象分配执行的指令数目，降低 CPU 使用
从 Go runtime 内存管理模块的角度看，一个 allocation buffer 其实是一个大对象。
本质上 balanced GC 是将多次小对象的分配合并成一次大对象的分配。
因此，当 GAB 中哪怕只有一个小对象存活时，Go runtime 也会认为整个大对象（即 GAB）存活，即GAB的对象分配方式会导致内存被延迟释放
解决方案：为此，balanced GC 会根据 GC 策略，将 GAB 中存活的对象移动到另外的 GAB 中，从而压缩并清理 GAB 的内存空间，原先的 GAB 空间由于不再有存活对象，可以全部释放。当GAB 中总大小超过一定阈值的时候，将GAB中存活的对象复制到另外分配的GAB中；原先的GAB可以释放，避免内存泄漏（本质是是用copying GC的方式管理小对象）

编译器和静态分析

编译器结构

重要的系统软件
- 识别符合语法和非法的程序
- 生成正确且高效的代码
分析部分（前端 front end）
- 词法分析，生成词素（lexeme）
- 语法分析，生成语法树
- 语义分析，收集类型信息，进行语义检查
- 中间代码生成，生成intermediate representation（IR）
综合部分（后端back end）
- 代码优化，机器无关优化，生成优化后的IR
- 代码生成，生成目标代码

静态分析

静态分析：不执行代码，推导程序的行为，分析程序的性质。
控制流：程序的执行流程
数据流：数据在控制流上的传递
通过分析控制流和数据流，我们可以知道更多关于程序的性质(properties)，这些性质可以帮助我们做编译优化 示例代码：

控制流图：

数据流图：

结合上面的程序。我们通过分析数据流和控制流，知道这个程序始终返回 4。编译器可以根据这个结果做出优化。

过程内分析和过程间分析

过程内分析(Intra-procedural analysis)：在函数内进行控制流和数据流的分析，仅在函数内部进行分析
过程间分析(Inter-procedural analysis): 考虑函数调用时(跨函数）的数据流和控制流，例如参数传递，函数返回值等的数据流和控制流
为什么过程间分析是个问题？
- 例子如图，需要通过数据流分析得知i的具体类型，才能知道i.foo()调用的是哪个foo()
- 根据i的具体类型，产生了新的控制流，i.foo()，进行下一步分析
- 过程间分析需要同时分析数据流和控制流——联合求解，较为复杂

Go编译器优化

为什么做编译器优化

用户无感知，重新编译即可获得性能收益
通用性优化

Go编译器现状

采用的优化少
编译时间较短，没有进行较为复杂的代码分析和优化

编译优化的思路

场景：面向后端长期执行任务
Tradeoff：用编译时间换取更高效的机器码

Beast mode（字节优化的策略）

函数内联
逃逸分析
默认栈大小跳转
边界检查消除
循环展开
...

函数内联

内联：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定
优点
- 消除函数调用的开销，例如传递参数，保存寄存器等
- 将过程间分析转化成过程内分析，帮助其他优化，例如逃逸分析
缺点
- 函数体变大，指令缓存icache不友好
- 编译生成的Go镜像变大
函数内联在大多数情况下是正向优化
内联策略
- 根据调用和被调函数的规模来决定是否做内联

Benchmark测试函数内联的影响

参考：Go语言中的内联函数 - SegmentFault 思否

Beast Mode - 函数内联

Go函数内联收到的限制较多
- 语言特性，如interface，defer等限制了函数内联
- 内联策略非常保守
Beast mode：调整函数内联的策略，使更多函数被内联
- 降低函数调用的开销
- 增加了其他优化的机会：逃逸分析
开销
- Go镜像增加~10%
- 编译时间增加

逃逸分析

逃逸分析：分析代码中指针的动态作用域：指针在何处可以被访问
大致思路
- 从对象分配处出发，沿着控制流，观察对象的数据流
- 若发现指针p在当前作用域s：
  - 作为参数传递给其他函数
  - 传递给其他的goroutine
  - 传递给已逃逸的指针指向的对象
- 则指针p指向的对象逃逸出s，反之则没有逃逸出s

Beast Mode - 逃逸分析

函数内联扩展了函数边界，更多的对象不逃逸
优化：未逃逸的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动sp
- 减少在heap上的分配，降低GC负担

高性能Go语言发行版优化和落地实践 | 青训营笔记

自动内存管理

1.1 自动内存管理

1.1.1 GC相关概率（扫盲）

1.1.2 追踪垃圾回收

分代GC(Generational GC)

引用计数

Go内存管理及优化

Go 内存分配-分块

Go 内存分配-缓存

Go内存管理的问题

优化案例

字节跳动，优化方案-Balanced GC

编译器和静态分析

编译器结构

静态分析

过程内分析和过程间分析

Go编译器优化

Go编译器优化

为什么做编译器优化

Go编译器现状

编译优化的思路

Beast mode（字节优化的策略）

函数内联

Benchmark测试函数内联的影响

Beast Mode - 函数内联

逃逸分析

Beast Mode - 逃逸分析

参考文献