Go 语言程序内存管理优化和编译优化 | 青训营笔记这是我参与「第三届青训营 -后端场」笔记创作活动的的第3篇笔记。本

这是我参与「第三届青训营 -后端场」笔记创作活动的的第3篇笔记。

本节课程主要分为四个方面：

自动内存管理

Go 内存管理及优化

编译器和静态分析

Go 编译器优化

由于官方文章关于该次课程的内容记录已经足够详细，本文章主要围绕课后作业来做回答。

官方文章链接如下：【Go 语言原理与实践学习资料（下）】第三届字节跳动青训营-后端专场 - 掘金 (juejin.cn)

01 从业务层和语言运行时层进行优化分别有什么特点？

业务层优化

针对特定场景，具体问题，具体分析
容易获得较大性能收益

语言运行时优化

解决更通用的性能问题
考虑更多场景
Tradeoffs（例如在优化GC时牺牲内存空间，提高运行效率）

共同特点

自动化性能分析工具 —— pprof
依靠数据而非猜测
首先优化最大瓶颈

02 从软件工程的角度出发，为了保证语言 SDK 的可维护性和可拓展性，在进行运行时优化时需要注意什么？

保证接口稳定的前提下进行改进，具体如下：

测试驱动，要提高单元测试覆盖率
清晰的文档，告诉用户优化做了什么，没做什么，效果如何
隔离，将优化的代码和原代码路径隔离，用条件编译选项控制
可观测、可灰度、可回滚灰度定义：灰度测试，就是在某项产品或应用正式发布前，选择特定人群试用，逐步扩大其试用者数量，以便及时发现和纠正其中的问题。

03 自动内存管理技术从大类上分为哪两种，每一种技术的特点以及优缺点有哪些？

追踪垃圾回收

特点：从根对象出发，不断标记引用的对象，迭代至无新加标记。Collector线程会清理未标记的对象（即不可达对象）。

优点：方法普适

缺点：需要经常进行STW，已经有一些提高业务线程和gc线程的并行化的措施，例如三色标记法，混合写屏障等等。

引用计数

特点：

每个对象都有一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于 0
例如 C++的智能指针

优点：

内存管理的操作被平摊到程序运行中：指针传递的过程中进行引用计数的增减
不需要了解 runtime 的细节：因为不需要标记 GC roots，因此不需要知道哪里是全局变量、线程栈等
与运行时解耦，可以使用第三方库来提供引用计数回收内存的功能

缺点：

开销大，因为对象可能会被多线程访问，对引用计数的修改需要原子操作保证原子性和可见性
无法回收环形数据结构
每个对象都引入额外存储空间存储引用计数
虽然引用计数的操作被平摊到程序运行过程中，但是回收大的数据结构依然可能引发暂停

04 什么是分代假说？分代 GC 的初衷是为了解决什么样的问题？

分代假说：most objects die young

直觉：很多对象在分配后很快就不再使用了

每个对象都有年龄：经历过GC的次数

目的：对年轻和年老的对象，制定不同的GC策略，降低整体内存管理的开销。

不同年龄的对象会处于heap的不同区域，然后不同区域的GC策略不同。

例如，

年轻代：

常规的对象分配
由于存活对象比较少，可以使用copying collection策略
GC吞吐率高

老年代：

对象趋向于一直活着，反复复制开销大
可以采用 mark-sweep collection

引申：有哪些垃圾回收策略？

copying GC: 将存活对象从一块内存空间复制到另外一块内存空间，原先的空间可以直接进行对象分配
Mark-sweep GC: 将死亡对象所在内存块标记为可分配，使用 free list 管理可分配的空间
Mark-compact GC: 将存活对象复制到同一块内存区域的开头

作者：青训营官方账号
链接：juejin.cn/post/709597… 来源：稀土掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

05 Go 是如何管理和组织内存的？

有以下两个关键词

分块

为了Go申请堆上的动态内存，采用 TCMalloc（TC is short for thread caching）一般是提前将内存分块：

调用系统调用 mmap() 向 OS 申请一大块内存，例如 4 MB
先将内存划分成大块，例如 8 KB，称作 mspan
再将大块继续划分成特定大小的小块，用于对象分配
noscan mspan: 分配不包含指针的对象 —— GC 不需要扫描
scan mspan: 分配包含指针的对象 —— GC 需要扫描对象分配：根据对象的大小，选择最合适的块返回

缓存

Go 内存管理构成了多级缓存机制，从 OS 分配得的内存被内存管理回收后，也不会立刻归还给 OS，而是在 Go runtime 内部先缓存起来，从而避免频繁向 OS 申请内存。内存分配的路线图如下。

mspan, mcache 和 mcentral 构成了内存管理的多级缓存机制。

首先需要知道Go的GMP模型。

一个P会统一管理一个内存缓存，叫mcache，会绑定在P上的G分配对象
mcache管理一组mspan
当mcache的mspan分配完毕，向mcentral申请带有未分配块的mspan
当mspan中没有分配的对象时，会被缓存在mecntral中，而不是立刻释放还给OS

06 为什么采用 bump-pointer 的方式分配内存会很快？

什么是bump-pinter？快速了解bump-the-pointer和TLAB_w_rcss的博客-CSDN博客

bump-pointer(指针碰撞)风格进行对象分配的优点：

无需和其它分配请求互斥(因为每个G用自己的内存缓存，即GAB)
分配动作简单高效（不需要维护free_list）分配的算法如下

为什么会提到bump-pointer呢？这是字节自己针对golang GC做的优化，见文章开头的原文链接，不再赘述。

07 为什么我们需要在编译器优化中进行静态代码分析？

静态分析：不执行代码，推导程序的行为，分析程序的性质。
控制流：程序的执行流程
数据流：数据在控制流上的传递通过分析控制流和数据流，我们可以知道更多关于程序的性质(properties) ，这些事实可以帮助我们做编译优化。

08 函数内联是什么，这项优化的优缺点是什么？

其实关于编译优化，本科课程的编译原理往往不涉及。这里推荐阅读CSAPP（深入理解计算机系统）这本书。

函数内联

定义：将被调用函数的函数体的副本替换到调用位置上，同时重写代码以反映参数的绑定

优点
- 消除调用开销
- 将过程间分析的问题转换为过程内分析，帮助其他分析
缺点
- 函数体变大
- 编译生成的 Go 镜像文件变大

是否采用内联，有很多策略，可以自行了解。举个例子，根据调用和被调用函数的规模，规模过大则不内联；再比如对于递归函数，层数太深内联也不合适。当然，大多数情况下采用函数内联，总能带来性能上的提升。

09 什么是逃逸分析？逃逸分析是如何提升代码性能的？

定义：分析代码中指针的动态作用域，即指针在何处可以被访问

大致思路
- 从对象分配处出发，沿着控制流，观察数据流。若发现指针 p 在当前作用域 s:
  - 作为参数传递给其他函数；
  - 传递给全局变量；
  - 传递给其他的 goroutine;
  - 传递给已逃逸的指针指向的对象；
- 则指针 p 逃逸出 s，反之则没有逃逸出 s.

优化：未逃逸出当前函数的指针指向的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动 sp 即可完成内存的分配和回收；
- 减少在堆上分配对象，降低 GC 负担。

一般来说，函数内联就帮助了减少逃逸。