这是我参与「第五届青训营」伴学笔记创作活动的第 4 天

前言

本章，通过学习自动内存管理的知识概念，进一步理解Go内存管理优化、编译器和静态分析、Go编译器优化，从而学会对Go语言进行内存管理的进一步优化。

性能优化

什么是性能优化？
- 提升软件系统处理能力，减少不必要的消耗，充分发掘计算机算力

为什么要做性能优化？
- 用户体验：带来用户体验的提升 —— 让刷抖音更丝滑，让双十一购物不再卡顿
- 资源高效利用：降低成本，提高效率 —— 很小的优化乘以海量机器会是显著的性能提升和成本节约

性能优化的层面
- 业务层优化
  - 针对特定场景，具体问题，具体分析
  - 容易获得较大性能收益
- 语言运行时优化
  - 解决更通用的性能问题
  - 考虑更多场景
  - Tradeoffs
- 数据驱动
  - 自动化性能分析工具 —— pprof
  - 依靠数据而非猜测
  - 首先优化最大瓶颈

软件质量
- 软件质量至关重要
- 在保证接口稳定的前提下改进具体实现

测试用例：覆盖尽可能多的场景，方便回归
通过清晰的文档告诉用户这一项优化做了什么，没做什么，能达到怎样的效果
隔离，优化代码用选项和原先的路径隔离，保证优化未启用时的行为同以前一致
可观测：必要的日志输出

自动内存管理

自动内存管理基本概念

动态内存：

程序在运行时根据需求动态分配的内存：如c语言的malloc()。

自动内存管理（垃圾回收）：由程序语言的运行时系统管理动态内存。

避免手动内存管理，专注于实现业务逻辑（勤奋的目的是为了懒）
保证内存使用的正确性和安全性，防止出现double-free problem & use-after-free problem

垃圾回收-相关概念：

Mutator：业务线程，分配新对象，修改对象指向关系。
Collector：GC线程，找到存活对象，回收死亡对象的内存空间。

Serial GC：只有一个collector。

Parallel GC：支持多个collectors同时回收的GC算法。

Concurrent GC：mutator(s) 和 collector(s) 可以同时执行。

Collectors必须感知对象指向关系的改变！

评价GC算法：

安全性（Safety）：不能回收存活的对象 基本要求
吞吐率（Throughput）：1 - GC时间/程序执行总时间 花在GC上的时间
暂停时间（Pause time）：stop the word (STW) 业务是否感知
内存开销（Space overhead）： GC元数据开销

追踪垃圾回收

对象被回收的条件：指针指向关系不可达的对象

过程：

标记root对象：包括静态变量、全局变量、常量和线程栈等等；

标记可达对象：求指针指向关系的传递闭包：从根对象出发，找到所有可达对象；

清理所有不可达对象：
- 将存活对象复制到另外的内存空间 (Copying GC)
- 将死亡对象的内存标记为"可分配" (Mark-sweep GC)
- 移动并整理存活对象 (Mark-compact GC)

根据对象的生命周期，使用不同的标记和清理策略

分代GC(Generational GC)

分代假说：most objects die young
Intuition：很多对象在分配出来后很快就不再使用了（英年早逝）
每个对象都有年龄：经历过GC的次数
目的：对年轻和老年的对象，指定不同的GC策略，降低整个提内存管理的开销
不同年龄的对象处于heap的不同区域
年轻代
- 常规的内存分配
- 由于存活对象很少，可以采用copying GC
- GC吞吐率很高

copying GC:

- 老年代

-   **对象趋向于一直活着，反复复制开销较大**
-   可以采用mark-sweep GC

mark-sweep GC:

引用计数

每个对象都有一个与之关联的引用数目；

对象存活的条件：当且仅当引用数>0

这样做的优点是：

内存管理的操作被平摊到程序执行过程中
内存管理不需要了解runtime的实现细节：C++智能指针(smart pointer)

这样做的缺点也是有的：

维护引用计数的开销较大：通过原子操作保证对引用计数的原子性和可见性
无法回收环形数据结构——weak reference
内存开销：每个对象都引入的额外内存空间存储引用数目
回收内存时依然可能引发暂停

Go内存管理及优化

Go内存分配-分块

目标：为对象在heap上分配内存。
提前将内存分块。
- 调用系统调用mmap()向OS申请一大块内存，例如4MB。
- 先将内存划分成大块，例如8KB，称作mspan
- 再继续将大块划分成特定大小的小块，用于按需对象的分配。
- noscan mspan：分配不包含指针的对象——GC不需要扫描。
- scan mspan：分配包含指针的对象——GC需要扫描。
对象分配：根据对象的大小，选择最合适的块。

## Go内存分配-缓存 - TCMalloc：`thread caching`。 - 每个`p`包含一个`mcache`用于快速分配，用于为绑定于`p`上的`g`分配对象。 - `mcache`管理一组`mspan`。 - 当`mcache`中的`mspan`分配完毕，向`mcentral`申请带有未分配块的mspan。 - 当`mspan`中没有分配的对象，`mspan`会被缓存在`mcentral`中，而不是立刻释放并归还给`OS`。

看下图，

编译器和静态分析

编译器的结构

重要的系统软件
- 识别符合语法和非法的程序
- 生成正确且高效的代码
分析部分：（前端 front end）
- 词法分析：生成词素（lexeme）
- 语法分析：生成语法树
- 语义分析：收集类型信息，进行语义检查
- 中间代码生成：生成intermediate representation（IR）
综合部分：（后端 back end）
- 代码优化：机器无关代码，生成优化后的IR
- 代码生成：生成目标代码

## 静态分析 - 静态分析：**不执行代码**，推导程序的行为，分析程序的性质。 - 控制流：程序的执行流程。 - 数据流：数据在控制流上的传递。

上图的程序转换成控制流图 (control-flow graph)

过程内分析和过程间分析

过程内分析（Intra-procedural analysis）: 在函数内部进行分析。
过程间分析（Inter-procedural analysis）:考虑过程调用时参数传递和返回值数的据流和控制流。

过程间分析问题解决方案：
需要通过数据流分析得知i的具体类型，才能知道i.foo()调用的是哪个foo()。
根据i的具体类型，产生了新的控制流，A.foo()，分析继续
过程间分析需要同时分析控制流和数据流——联合求解，比较复杂。

Go编辑器优化

编译器优化目的：

用户无感知，重新编译即可获得性能收益。
通用性优化。

现状：

采用的优化少。
编译时间较短，没有进行较复杂的代码分析和优化。

编译优化思路：

场景：面向后端长期执行任务
Tradeoff: 用编译时间换取更高效的机器码。

Beast mode：

函数内联
逃逸分析
默认栈大小调整
边界检查消除
循环展开
。。。。

函数内联（inlining）

定义：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定

优点

**消除函数调用开销，例如传递参数、保存寄存器等。
将过程间分析的问题转换为过程内分析，帮助其他分析，例如逃逸分析
那么函数内联能多大程度影响性能？-用以下例子使用benchmark基准测试一下

func BenchmarkInline(b *testing.B) {
    x := genInteger()
    y := genInteger()
    for i := 0; i < n.N; i++ {
        addInline(x, y)
    }
}

func addInline(a, b int) int {
    return a + b
}

func BenchmarkInlineDisabled(b *testing.B) {
        x := genInteger()
    y := genInteger()
    for i := 0; i < n.N; i++ {
        addNoInline(x, y)
    }
}

// go:noinline
func addNoInline(a, b int) int {
    return a + b

运行结果：

缺点
- 函数体变大
- 编译生成的 Go 镜像文件变大
函数内联在大多数情况下是正向优化，即多内联，会提升性能
内联策略
- 调用和被调用函数的规模

Beas Mode

Go函数内联受到的限制较多
- 语言特性，例如interface，defer等，限制了函数内联。
- 内联策略非常保守。
Beast mode：调整函数内联的策略，使更多函数被内联
- 降低函数调用的开销。
- 增加了其他优化机会：逃逸分析。
开销：
- Go镜像增加约10%。
- 编译时间增加。

逃逸分析

定义：分析代码中指针的动态作用域，即指针在何处可以被访问
大致思路
- 从对象分配处出发，沿着控制流，观察数据流。
- 若发现指针 p 在当前作用域 s:
  - 作为参数传递给其他函数；
  - 传递给全局变量；
  - 传递给其他的 goroutine;
  - 传递给已逃逸的指针指向的对象；
  - 则指针 p 逃逸出 s，反之则没有逃逸出 s.
优化：未逃逸出当前函数的指针指向的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动 sp 即可完成内存的分配和回收；
- 减少在堆上分配对象，降低 GC 负担。

引用

掘金字节内部课：Go语言内存管理及编译器优化思路

Go语言内存管理详解 | 青训营笔记