这是我参与「第三届青训营 -后端场」笔记创作活动的第4篇笔记。

《高性能Go语言发行版优化与落地实践》课程由张逸飞老师讲授，根据张老师讲解的课程内容，我总结梳理出了如下笔记内容。

见微知著——课程重点一览

高性能Go语言发行版优化与落地实践.png

步步为营——知识点详细剖析

性能优化

回顾上次课的内容，我们了解了性能优化的重要性。关于性能优化这个话题，还有几点可以进行补充。

性能优化的基本问题

我们编写的代码要追求极致的性能，因此我们需要不断地尝试去做性能优化。那么什么是性能优化呢？我们做性能优化的目的又是什么呢？

性能优化是提升软件系统处理能力的过程，它可以减少不必要的消耗，充分发掘计算机算力。我们不断地去做性能优化的目的，一方面是提升用户体验，另一方面是为了降低成本、提高效率，从而使资源得以高效利用。

性能优化的两个层面

软件系统性能优化可以划分为两个层次：

业务层的优化：是针对特定场景进行的优化，需要具体问题具体分析，容易获得较大的性能收益。
语言运行时优化：主要用于解决更为通用的性能问题，需要考虑的场景更多，必要的情况下要做出相应的取舍。

性能优化主要依靠的是数据而非猜测。因此，整个性能优化过程是数据驱动的。我们可以利用自动化性能分析工具pprof来协助我们进行分析，并优先优化项目的最大瓶颈。

性能优化的可维护性

在进行软件优化时要保证软件的质量。以Go语言的SDK优化为例：

首先，软件的质量是至关重要的。
其次，对软件的优化要遵循开放封闭原则，需要在保证接口稳定的前提下进行具体的实现，不能因为对软件的优化而改变了原有的接口。
第三，针对优化后的SDK需要有完备的测试用例，需要覆盖尽可能多的场景，方便回归测试。
第四，软件的优化需要有详尽的文档可以参考，需要了解优化前后做了什么，没做什么，达到了怎样的效果。
第五，优化的过程中要与原版本做好隔离性措施，可以通过选项来控制是否开启优化。
最后，软件的优化结果需要具备可观测性，需要有必要的日志输出

自动内存管理

自动内存管理的背景及意义

程序在运行的过程中会根据需求进行动态内存分配，自动内存管理机制是程序语言在运行时由系统进行动态内存回收的机制，又被称为“垃圾回收机制”。

自动内存管理机制避免了手动内存管理，使程序员可以专注于实现业务逻辑，同时保证了内存使用的正确性和安全性，避免出现double-free问题和use-after-free问题。

自动内存分配专注于三个任务：为新对象分配内存、寻找存活对象和回收死亡对象的内存空间。

自动内存管理相关概念和评价方法

先来介绍一些关于自动内存分配的相关概念和评价方法。

评价方法

安全性：不能回收存活的对象(基本要求)
吞吐率： $1-{GC时间 \above{2pt} 程序执行总时间}$ (花在GC上的时间)
暂停时间：Stop The World(STW)
内存开销：GC元数据开销

追踪垃圾回收算法

追踪垃圾回收算法是自动内存管理技术的一大类算法，它将指针指向关系中不可达的对象视为垃圾，通过标记的方式实现垃圾对象的判断。

在标记之初，GC线程会选择静态变量、全局变量、常量和线程栈等作为根对象进行标记。
之后从根对象出发，根据指针指向关系的传递闭包，标记所有可达的对象。
最后将所有不可达的对象进行清理。

清理垃圾的方式有三种：

复制算法：将存活的对象复制到另外的内存空间(另外开辟内存空间)
标记清除算法：将死亡对象的内存标记为可分配(维护free list管理空闲内存)
标记整理算法：移动并整理存活的对象(原地整理对象)

流程图 (27).jpg

根据对象的具体生命周期，可以使用不同的标记和清理的策略。

对于追踪垃圾回收算法来说，其优点在于不需要频繁地维护引用计数，但在进行垃圾回收的过程中需要进行“暂停”，在一定程度上可能会影响用户体验。

引用计数算法

自动内存管理技术的另一大类算法是引用计数算法。每个对象都维护一个与之关联的引用数目，它将对象的引用数为0的对象视为垃圾，通过维护对象的引用数目来实现垃圾对象的判断。

对于引用计数算法来说，其优点在于内存管理的操作被均摊到程序执行的过程中，且内存管理无需了解运行时的实现细节，但维护引用计数的开销较大，不但需要使用原子操作来保证引用计数的原子性和可见性，还需要通过weak reference来处理环形引用的问题。并且，回收内存时依然是可能引发暂停的。

分代GC

分代假说是自动内存管理过程中“多数对象‘朝生夕死’现象”规律的总结，大多数的对象在分配出来后很快就不再进行使用了。分代假说将每个对象经历过GC的次数称为对象的年龄，根据对象的年龄可以将对象划分为年轻代和老年代，不同年龄的对象处于堆内存的不同区域。

年轻代：指常规的对象分配，由于存活的对象很少，因此可以采用复制算法进行垃圾回收。另外，年轻代的GC吞吐率很高。
老年代：指趋向于一直存活的对象，由于反复复制这部分对象的复制开销较大，因此采用标记清除算法进行垃圾回收。

使用分代模型的目的是针对年轻代和老年代的对象，制定不同的垃圾回收策略，从而降低整体内存管理的开销。

Go内存管理及优化

Go内存管理

在Go语言中，采用分块和缓存的方式来进行内存的管理和组织。

Go语言会提前将内存进行分块操作，根据不同对象的大小来为对象选择最合适的块来进行内存分配。

在内存分块的过程中，Go语言会调用系统调用mmap()向操作系统申请一大块内存空间。之后将内存划分为一些大块，这些大块被称为mspan，再将mspan继续划分为特定大小的小块用于对象分配。

mspan可以分成两类：

noscan mspan：用于分配不包含指针的对象，GC时不需要对其进行扫描
scan mspan：用于分配包含指针的对象，GC时需要对其进行扫描

Go语言采用TCMalloc缓存机制来组织内存结构，整体采用GMP模型来实现内存的管理。

流程图 (28).jpg

Go语言中的每个P包含一个mcache用于快速分配，每个mcache管理一组mspan。当mcache中的mspan分配完毕时，mcache会向mcentral申请带有未分配块的mspan，如果mcentral中资源依然不足，则mcentral会向mheap进行申请，直至向操作系统层级申请内存空间。当mspan中没有分配对象时，mspan会被缓存在mcentral中，而不是立即释放并归还给操作系统。

Go内存管理优化

由于在程序的运行过程当中，对象分配是非常高频的操作，几乎可以达到每秒分配GB级别的内存。其中，小对象的占比是比较高的。然而，在前面我们已经了解到Go语言中，为对象分配内存的路径是比较长的(g -> m -> p -> mcache -> mspan -> memory block -> return pointer)，因此这个过程是十分耗时的。利用之前我们学过的pprof工具也不难发现，对象分配的函数是最频繁调用的函数之一。

因此，我们应该考虑如何在内存管理上进行优化。

Balanced GC

字节跳动公司采用的优化方案是Balance GC，主要思想是为每个协程绑定一大块内存，该内存被称为协程分配缓存(GAB)。GAB是专门为nosan类型的小对象进行内存分配的。

流程图 (29).jpg

在GAB中，采用指针碰撞的方式进行内存分配。每个协程单独维护一个GAB，因此，指针碰撞的分配方式无须和其他分配请求做互斥操作的处理。另外，指针碰撞方式在分配内存的过程中仅需维护三个指针即可，分配动作简单高效，实现简单。

GAB对于Go内存管理来说是一个整体的大对象，其本质是将多个小对象的分配合并成一次大对象的分配。然而，GAB的对象分配方式可能会导致某些内存被延迟释放，针对这一问题，我们采用移动GAB中存活对象的方式来进行处理。

当GAB总大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中
原来的GAB可以被释放掉，从而避免内存泄漏的问题

然而，这种处理方式的本质，其实就是利用复制算法来管理小对象。

通过使用Balanced GC的方式，使得高峰期的CPU使用减低4.6%，核心接口时延下降4.5%~7.7%。

编译器和静态分析

编译器的结构与编译流程

编译器是重要的系统软件，用于识别符合语法和非法的程序，并生成正确且高效的代码。

编译器可以分为前端和后端两个部分：

编译器的前端又称为分析部分，分析部分包括词法分析器、语法分析器、语义分析器和中间表示：
- 词法分析：用于生成词素
- 语法分析：用于生成语法树
- 语义分析：用于收集类型信息，进行语义检查
- 中间代码生成：用于生成intermediate representation(IR)
编译器的后端又称为综合部分，综合部分主要包括代码优化和代码生成：
- 代码优化：进行机器无关优化，生成优化后的IR
- 代码生成：生成目标代码

流程图 (30).jpg

在编译器优化部分，主要学习编译器后端的优化。

静态分析

静态分析是指不执行程序代码，推导程序的行为，分析程序的性质的过程。该过程涉及控制流和数据流的分析，通过分析，我们可以了解到更多的关于程序的性质。而这些性质可以指导我们对代码进行针对性的优化。

控制流分析

控制流分析关注的是程序执行的流程，为了更直观地展示程序的执行流程，可以绘制控制流图来直观地了解。

数据流分析

数据流指的是数据在控制流上的传递过程，我们可以让数据在控制流上执行，通过每一步数据的变化，了解程序中数据的变化过程。

过程内分析和过程间分析

此外，我们还可以进行过程内分析和过程间分析来对代码进行静态分析。

过程内分析：仅在函数内部进行分析。
过程间分析：考虑过程调用时参数传递和返回值的数据流和控制流的分析

然而，进行过程间分析是比较困难的：

首先，我们需要通过数据流分析来得知变量的具体类型，才能知道具体调用了哪个函数。
其次，得到变量的具体类型后，会产生新的控制流需要进行分析。
最后，过过程间分析需要同时分析控制流和数据流，需要联合求解，整体操作是比较复杂的。

Go编译器优化

最后，聊一下Go语言编译器的优化问题。

Go编译器优化相关问题

我们可以从三个方面来简单聊一下Go语言编译器的优化。

为什么做编译器的优化

首先，聊一下为什么要做编译器的优化。对于编译器的优化，在用户方面是无从感知的，但经过重新编译即可获得性能方面的收益。此外，对编译器的优化往往是通用性优化，可以应用于多数场景中。

编译器优化的现状

接着，聊一下编译器优化的现状。目前在编译器方面采用的优化较少。而优化器编译的时间较短，并没有进行较为复杂的代码分析和优化。因此，编译器的优化还有着很大的空间可以发掘。

编译优化的思路

最后，聊一下编译器优化的思路。编译器所处场景是一个面向后端的长期执行的任务场景，我们在优化的过程中，常常采用折衷的方式来换取性能上的优化。一种比较常见的方式是利用编译时间换取更为高效的机器码。

函数内联

函数内联是指将被调用函数的函数体的副本替换到调用位置上的操作，在该过程中会重写代码以反映参数的绑定。

函数内联的优点在于消除了函数调用的开销，将过程间分析转化为过程内分析，同时有助于逃逸分析方式的优化。

函数内联的缺点在于它使得原有的函数体变大，对应的编译生成的Go镜像变大。

函数内联在大多数情况下是正向优化，因此，在采用函数内联方式进行优化时基本可以放心地进行优化操作。

逃逸分析

逃逸分析是分析代码中指针的动态作用域的过程。通过逃逸分析可以确定指针的动态作用域，从而判断出未逃逸对象。针对这些未逃逸对象，可以将他们在栈空间上分配内存。由于对象在栈上分配和回收速度很快，因此可以提升内存分配和回收的速度。同时，可以减小对象在堆上的内存分配与回收，降低垃圾回收的负担。

逃逸分析的大致思路如下：

从对象分配处出发，沿着控制流，观察对象的数据流
若发现指针p在当前作用域s：
- 作为参数传递给其他函数
- 传递给全局变量
- 传递给其他的协程
- 传递给已逃逸的指针指向的对象

则指针p指向的对象逃逸出s，反之则没有逃逸出s。

Beast mode

由于Go语言的一些语言特性会限制函数内联，因此Go语言的内联策略十分保守。相应地，存在着一个调整函数内联的策略——Beast mode，它使得更多函数能够被内联。

Beast mode降低了函数调用的开销，增加了对象逃逸分析优化的机会。而在CPU、时延和内存使用上，能够获得可观的性能收益。

小试牛刀——课后实践

作业描述

从业务层和语言运行时层进行优化分别有什么特点？

从软件工程的角度出发，为了保证语言SDK的可维护性和可拓展性，在进行运行时优化时需要注意什么？

自动内存管理技术从大类上分为哪两种，每一种技术的特点以及优缺点有哪些？

什么是分代假说？分代 GC 的初衷是为了解决什么样的问题？

Go 是如何管理和组织内存的？

为什么采用 bump-pointer 的方式分配内存会很快？

为什么我们需要在编译器优化中进行静态代码分析？

函数内联是什么，这项优化的优缺点是什么？

什么是逃逸分析？逃逸分析是如何提升代码性能的？

实践成果

从业务层和语言运行时层进行优化分别有什么特点？答：业务层的优化是针对特定场景进行的优化，需要具体问题具体分析，容易获得较大的性能收益；语言运行时优化主要用于解决更为通用的性能问题，需要考虑的场景更多，必要的情况下要做出相应的取舍。
从软件工程的角度出发，为了保证语言SDK的可维护性和可拓展性，在进行运行时优化时需要注意什么？答：首先，在进行运行时优化是要保证软件的质量。对于SDK来说，软件的质量是至关重要的。其次，对软件的优化要遵循开放封闭原则，需要在保证接口稳定的前提下进行具体的实现，不能因为对软件的优化而改变了原有的接口。第三，针对优化后的SDK需要有完备的测试用例，需要覆盖尽可能多的场景，方便回归测试。第四，软件的优化需要有详尽的文档可以参考，需要了解优化前后做了什么，没做什么，达到了怎样的效果。第五，优化的过程中要与原版本做好隔离性措施，可以通过选项来控制是否开启优化。最后，软件的优化结果需要具备可观测性，需要有必要的日志输出。
自动内存管理技术从大类上分为哪两种，每一种技术的特点以及优缺点有哪些？答：自动内存管理技术从大类上可以分为“追踪垃圾回收”和“引用计数”两种。追踪垃圾回收将指针指向关系中不可达的对象视为垃圾，通过标记的方式实现垃圾对象的判断。其优点在于不需要频繁地维护引用计数，但在进行垃圾回收的过程中需要进行“暂停”，在一定程度上可能会影响用户体验。引用计数将对象的引用数为0的对象视为垃圾，通过维护对象的引用数目来实现垃圾对象的判断。其优点在于内存管理的操作被均摊到程序执行的过程中，且内存管理无需了解运行时的实现细节，但维护引用计数的开销较大，不但需要使用原子操作来保证引用计数的原子性和可见性，还需要通过weak reference来处理环形引用的问题。并且，回收内存时依然是可能引发暂停的。
什么是分代假说？分代 GC 的初衷是为了解决什么样的问题？答：分代假说是自动内存管理过程中“多数对象‘朝生夕死’现象”规律的总结，大多数的对象在分配出来后很快就不再进行使用了。使用分代模型的目的是针对年轻代和老年代的对象，制定不同的垃圾回收策略，从而降低整体内存管理的开销。
Go 是如何管理和组织内存的？答：Go语言采用分块和缓存的方式来进行内存的管理和组织。 Go语言会提前将内存进行分块操作，根据不同对象的大小来为对象选择最合适的块来进行内存分配。 Go语言采用缓存机制来组织内存结构，整体采用GMP模型来实现内存的管理。Go语言中的每个P包含一个mcache用于快速分配，每个mcache管理一组mspan。当mcache中的mspan分配完毕时，mcache会向mcentral申请带有未分配块的mspan，如果mcentral中资源依然不足，则mcentral会向mheap进行申请，直至向操作系统层级申请内存空间。当mspan中没有分配对象时，mspan会被缓存在mcentral中，而不是立即释放并归还给操作系统。
为什么采用 bump-pointer 的方式分配内存会很快？答：指针碰撞方式分配内存仅需要维护三个指针，分配动作简单高效，实现简单。另外，指针碰撞的分配内存方式无须和其他分配请求做互斥操作的处理，每一个协程维护一个GAB。
为什么我们需要在编译器优化中进行静态代码分析？答：静态分析是指不执行程序代码，推导程序的行为，分析程序的性质的过程。该过程涉及控制流和数据流的分析，通过分析，我们可以了解到更多的关于程序的性质。而这些性质可以指导我们对代码进行针对性的优化。
函数内联是什么，这项优化的优缺点是什么？答：函数内联是指将被调用函数的函数体的副本替换到调用位置上的操作，在该过程中会重写代码以反映参数的绑定。函数内联的优点在于消除了函数调用的开销，将过程间分析转化为过程内分析，同时有助于逃逸分析方式的优化。函数内联的缺点在于它使得原有的函数体变大，对应的编译生成的Go镜像变大。
什么是逃逸分析？逃逸分析是如何提升代码性能的？答：逃逸分析是分析代码中指针的动态作用域的过程。通过逃逸分析可以确定指针的动态作用域，从而判断出未逃逸对象。针对这些未逃逸对象，可以将他们在栈空间上分配内存。由于对象在栈上分配和回收速度很快，因此可以提升内存分配和回收的速度。同时，可以减小对象在堆上的内存分配与回收，降低垃圾回收的负担。

温故知新——总结与感悟

张逸飞老师的这门课也是含金量极高的一门课，也是我非常喜欢的一门课。逸飞老师在课上和我们有着很多的互动，并且牺牲掉自己课间休息时间坚持为我们解答评论区中的问题，十分耐心，是很棒的一节课！

在这门课上，我学习到了性能优化要解决的基本问题、性能优化的两个层面，以及性能优化的可维护性的相关知识。从宏观的角度，了解到了自动内存管理的相关背景、意义以及相关概念。进一步地，我了解到了Go语言的内存管理方式以及字节跳动在Go语言内存管理上的优化方案及贡献。最后，也了解到了编译器层面上如何对Go语言进行性能上的优化。

在课下，通过整理温习逸飞老师的课程内容，我对语言的性能优化有了进一步的理解与认识。通过回答作业当中的问题，我对性能优化也有了自己的一些理解与认识，相应地也可以成为未来工作当中的一份谈资。

高性能Go语言发行版优化与落地实践 | 青训营笔记