高性能 Go 语言发行版优化与落地实践 | 字节后端青训营笔记这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇

这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇笔记。

课程内容

前言

优化性能的目的是什么？

提升用户体验
资源高效利用

性能优化主要从高到低可以从以下5个方面着手：

业务代码：常用的比如pprof，容易获得较大的性能受益，因为我们是针对具体业务问题去做优化（针对具体问题，具体场景，具体分析）
SDK：可以说是偏向底层的一个软件产品，比如这个sdk是提供给所有字节的程序使用的，所以一般解决的是通用性能问题，比如内存分配问题，比如编译器生成代码质量的问题，因为针对的是全公司不同业务的场景，所以需要考虑更多的场景。
基础库
语言运行时
OS

最上面两层的优化，不管怎样，都需要用数据去驱动优化，比如使用自动化性能分析工具，比如pprof工具，帮助我们去定位、找到性能优化的问题。依据这些工具产生数据，而不是自己猜测。本节课主要从内存方面和编译器两个方面讲解

软件质量如何保证？

测试用例：尽可能多的测试用例，覆盖尽可能多的场景，方便回归
文档：做了什么，没做什么
隔离性：通过选项控制是否开启优化。保证优化之前的用户不会受到影响
可观测：必要的日志输出

一、自动内存管理

自动内存管理的任务：
1. 为新对象分配空间
2. 找到存活对象
3. 回收死亡对象的空间
自动内存管理的相关概念：
1. Mutator：业务线程，分配新对象，修改对象指向关系。补充：goroutine一定是mutator，但mutator不一定是goroutine
2. Collector：GC线程，找到存活对象，回收死亡对象的内存空间
3. Serial GC：只有一个collector
4. Parallel GC：支持多个collector同时回收的GC算法
5. Concurrent GC：mutators和collectors可以同时执行
评价GC的指标：
1. 安全性：不能回收存活的对象（基本要求）
2. 吞吐量：1 - GC时间/程序执行总时间（花在GC上的时间）
3. 暂停时间：stop the world（业务是否感知）
4. 内存开销：GC原数据开销
追踪垃圾回收：对象被回收的条件：指针指向关系不可达的对象
1. 步骤1:标记根对象（静态变量、全局变量、常量、线程栈等）
2. 步骤2:找到可达对象（从根对象出发，找到所有可达对象）
3. 步骤3:所有不可达对象（复制算法、标记清除算法、标记整理算法）
分代GC
1. 目的：对年轻代和老年代对象，指定不同的GC策略，降低整体内存管理的开销成本
2. 年轻代：存活对象少，采用复制算法GC的吞吐率比较高
3. 老年代：对象趋向于一直存活，反复复制开销比较大，采用标记清楚算法
引用计数：每个对象都有一个与之关联的引用数量
1. 对象存活条件：引用数大于0
2. 缺点：维护引用计数开销比较大
3. 无法回收环形数据结构-解决办法：weak reference
4. 内存开销：每个对象都引入额外的内存空间存储引用数目

二、Go内存管理及优化

Go的内存分配——分块

目标：为对象在heap上分配内存

提前将内存分块：

调用系统调用mmap()向OS申请一大块内存，例如4MB
先将内存分成大块，例如8KB，称作mspan
再将大块分成特定大小的小块，用于内存的分配
mspan再做分类，第一种是noscan mspan，分配不包含指针的对象，GC不需要扫描；scan mspan，分配包含指针的对象，GC需要扫描

对象分配：根据对象的大小，从mspan中选择一个合适大小的块进行分配

GO的内存分配——缓存

Go的内存分配器借鉴了TCMalloc内存分配器，TC：Thread Caching

Go的内存分配器做了很多层不同层的缓存

如下图所示： p上有一个数据结构，叫mcache，它会存储一组mspan，每个mspan的大小是不一样的，根据对象大小找到最小的一个mspan块，找到后将这个块返回出去；如果mspan都是满的，我们需要去下一级别的缓存mcentral找一个空余的mspan，然后将这个mspan填到mcache里面，紧接着在mspan中再找一个对象返回出去，就完成了一次对象的内存分配

专业角度：每个p上包含一个mcache用于快速分配，用于为绑定于p上的g分配对象 mcache管理一组mspan 当mcache中的mspan分配完毕，向mcentral申请带有未分配块的mspan 当mspan中没有分配的对象，mspan会被缓存到mcentral当中，而不是立刻释放并归还给OS

Go内存管理优化

对象分配是非常高频的操作：每秒分配GB级别的内存
小对象占比高
Go内存分配比较耗时：
- 分配路径长：g->m->p->mcache->mspan->memmory block->return pointer
- ppof:对象分配的函数是最频繁调用的函数之一

字节优化方案：Balanced GC

字节跳动GO SDK在内存分配上做的优化：Balanced GC
每个g都绑定一大块内存：1kb，称作Goroutine allocation buffer（GAB）
GAB用于noscan类型的小对象分配：<128B
使用三个指针维护：base、top、end
Bump pointer（指针碰撞）风格对象分配（特点）：
1. 无需和其他g上的分配请求互斥
2. 分配动作简单高效

比如分配一个8B的对象，只需要移动指针（base）即可

GAB对于GO内存管理来说是一个大对象
Balanced GC的本质：将多个小对象的分配合并为了一次大对象的分配（8kb的mspan，1kbGAB）
可能出现的问题：GAB对象分配方式导致内存被延迟释放（比如分配一个8B的小对象，但是会导致整个GAB被标记为存活，无法被回收）
解决方案：移动GAB中的存活对象
1. 当GAB总大小超过一定的阈值，将GAB中存活的对象复制到另外分配的GAB中
2. 原先的GAB可以释放，避免内存泄漏
3. 本质：用Copying GC算法来管理小对象（根据对象的声明周期，采用不同的标记算法和清理策略）

三、编译器和静态分析

重要的系统软件

识别符合语法和非法的程序
生成正确且高效的代码

分析部分（前端front end）：

词法分析，生成词素
语法分析，生成语法树
语义分析，收集类型信息，进行语义检查
中间代码生成，生成intermediate representation（IR）中间表示

综合部分（后端back end）：

代码优化，机器无关优化生成优化后的IR
代码生成，生成目标代码

静态分析

静态分析：不执行程序代码，推导程序的行为，分析程序的性质

常见的分析主要有两种：

控制流（Control Flow）：程序执行的流程，把程序控制流的信息提取出来，一般做控制流分析的时候，都会做控制流图做表示
数据流（Data Flow）：数据在控制流上的传递

过程内分析和过程间分析

过程内分析：仅在函数内部进行分析
过程间分析：考虑函数调用时参数传递和返回值的数据流和控制流

过程间分析非常复杂

四、Go编译器优化

为什么要做编译器优化？

用户无感知，重新编译即可获得性能受益
通用性优化（基本上针对所有场景，编译器优化都能够适用）现状
采用的优化少
编译时间较短，没有进行复杂的代码分析和优化字节跳动编译优化的思路：
场景：面向后端长期执行的任务
Tradeoff：用编译时间换取更高效的机器码

字节推出Beast Mode，被集成到Go SDK中，具体的特性有如下

函数内联
逃逸分析
默认栈大小调整等等

函数内联

内联：将被调用的函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定

优点：

消除函数调用的开销，例如传递参数，、保存寄存器等（因为把两个函数合并为一个函数了，所以开销减小了，所以不存在函数调用，所以不需要做参数传递、保存寄存器等操作）
将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析（无函数调用，整个过程变成了一个函数）

micro-benchmark：使用micro-benchmark快速验证和对比性能优化结果

缺点：

函数体变大，instruction cache（icache）不友好
编译生成的Go镜像变大（函数被复制了很多份）

字节优化方案：Beast Mode

背景：

Go函数内联受到的限制很多

语言特性：例如interface、defer等，限制了函数内联
Go编译器在做内联的时候，其内联策略非常保守

Beast Mode：调整函数内联策略，使更多函数被内联

降低函数调用的开销
增加了其他优化的机会：逃逸分析

打开Beast Mode内联策略后，开销：

Go镜像增加10%
编译时间增加

逃逸分析

分析代码中指针的动态作用域：指针在何处可以被访问

逃逸分析的大致思路：

从对象分配处出发，沿着控制流，观察数据流。
若发现指针 p 在当前作用域 s:
- 作为参数传递给其他函数；
- 传递给全局变量；
- 传递给其他的 goroutine;
- 传递给已逃逸的指针指向的对象；
则指针 p 逃逸出 s，反之则没有逃逸出 s.

Beast Mode：函数内联拓展了函数的边界，更多对象不逃逸

Beast Mode优化：未逃逸出当前函数的指针指向的对象可以在栈上分配

对象在栈上分配和回收很快：移动 sp 即可完成内存的分配和回收；减少在堆上分配对象，降低 GC 负担。

性能受益：

CPU使用率下降、时延下降
内存率使用下降