高性能Go语言发行版优化与落地实践｜青训营笔记性能优化是什么? 充分使用计算的资源，尽可能的减少不必要的消耗，充分发掘计

这是我参与「第三届青训营 -后端场」笔记创作活动的的第1篇笔记

性能优化是什么?

充分使用计算的资源，尽可能的减少不必要的消耗，充分发掘计算机的算力

为什么要作性能优化？

1、提高用户体验 2、充分利用资源、降低成本，在基数很大的情况下一点点的性能优化往往能带来大的节约，所以性能优化显得尤为重要。

性能优化的层面

业务层优化

业务层优化部分方面的优化特点是: 因为涉及到具体的业务逻辑代码可以针对特定的场景具体的问题进行具体分析，所以容易获得较大性能收益

语言运行时优化

语言运行时优化为的是解决通用的性能问题需要考虑更多的场景，因此优化的收益可能不会很大但是因为使用的基数大总的收益还是很乐观的。

数据驱动

使用自动化性能分析工具(例如之前学过的pprof)，通过这些可视化的自动分析工具可以将具体的数据显示例如cpu的使用、内存的使用、协程的使用等等，这样我们可以进行选择首先优化哪方面首先应该优化最需要突破的方面。

性能优化与软件质量

软件的质量是首要的，优化性能肯定不能破坏产品的质量
在保证接口稳定的前提下改进具体的实现，这样可以通过开关来选择是否开启优化，即可以避免破坏原有的接口实现功能
测试的用例需要比原接口更多，且需要保证原接口的测试用例通过
编写优化的的说明文档
需要有必要的日志输出，以便debug追踪

自动内存管理

自动内存管理的相关概念

三个任务：为新对象分配空间、找到存活的对象、回收死亡对象的内存空间

内存管理：指的是动态内存，即程序在运行时根据需求分配的内存。

自动内存管理(垃圾回收)优点：

1、可以避免由程序员手动的内存管理，使程序员只关注实现业务逻辑。

2、保存内存使用的正确性和安全性

相关概念

Mutator:业务线程，分配新对象，修改对象指向关系
Collector：GC线程，找到存活对象、回收死亡对象的内存空间

Serial GC：只有一个线程GC，即上面的两个线程不能同时工作，GC的时候会停止业务线程
Paraller GC:有多个线程同时GC，但是也会停止业务线程
Concurrent GC:业务线程和GC线程可以同时执行

GC算法评价

安全性：不能回收存活的对象是基本要求
吞吐率：1-（花在GC上的时间 / 程序执行的总时间）
暂停时间:业务是否感知
内存开销:GC也是需要一些内存存储元数据的

追踪垃圾回收

对象被回收的条件，指针指向关系不可达的对象，指的是没有被任何指针引用的对象(不包括循环引用)
步骤:标记根对象(全局变量、静态变量、Stack、Heap等等作为根对象) ---->> 通过指针标记可达对象 ---->> 清理所有不可达对象，根据对象的生命周期，使用不同的标记和清理策略

引用计数

为每个对象设置一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于0

优点:

内存管理的操作被平摊到程序执行过程中

内存管理不需要了解runtime的实际细节
缺点:

维护引用计数的开销较大，通过原子操作保证对引用计数操作的原子性和可见性

无法回收环型引用

回收内存时依然可能引发暂停

分代.png

分代GC

分代假说：可以自行百度
很多分配出来的对象很快不会使用了
对象的年龄:对象经过GC的次数
目的:针对不同年龄的对象，制定不同的GC策略，降低整体的内存管理开销

GO 内存管理及优化

Go 内存分配-分块

目标:为对象在heap上分配内存

提前将内存分块

向OS申请一大块内存，例如4MB
先将内存划分成大块，例如8KB，称作mspan
再将大块继续分成特定大小的小块，用于对象分配
noscan mspan：分配不包含指针的对象-----GC不需要扫描
scan mspan：分配包含指针的对象-----GC需要扫描

对象分配

根据对象的大小，选择最合适的块返回

内存分配.png

Go 内存分配-缓存

TCMalloc：thread caching
每个p包含一个mcache用于快速分配，用于为绑定与p上的g分配对象
mcache管理一组mspan
当mcache管理一组mspan分配完毕，向mcentral申请带有未分配的msapn
当msapn中没有分配的对象，msapn会被缓存在mcentral中，而不是立刻释放并归还给OS

缓存.png

内存管理优化

对象分配是非常高频的操作：每秒分配 GB 级别的内存
小对象占比较高
Go内存分配比较耗时
- 分配路径长:g -> m -> p -> mcache -> msapn -> memory block -> return pointer
- 使用pprof可以发现对象分配的函数值最频繁调用的函数之一

优化方案 Balanced GC

为每个 g 都绑定一大块内存(1KB)称为GAB
GAB用于noscan类型的小对象分配，需要满足对象大小小于128B
使用三个指针维护GAB：base、end、top(看下图)
Bump pointer(指针碰撞)风格对象分配优点
- 无需和其他分配请求互斥
- 分配动作简单高效

GAB对于Go内存管理来说是一个对象
本质:将多个小对象的分配合并成一次大对象的分配
产生的问题:GAB的对象分配方式会导致内存被延迟释放
解决方案:移动GAB中存活的对象
- 当GAB总大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中
- 原先的GAB可以释放，避免内存泄漏
- 本质：用coping GC的算法管理小对象

编译器和静态分析

编译器的系统软件

重要的系统软件
- 识别符合语法和非法的程序
- 生成正确且高效的代码

分析部分(前端 front end)
- 词法分析，生成词素
- 语法分析，生成语法树
- 语义分析，收集类型信息，进行语义检查
- 中间代码生成

综合部分(后端 back end)
- 代码优化，机器无关优化，生成优化后的 IR(指的是上面的中间代码生成)
- 代码生成，生成目标代码

静态分析

静态分析:不执行程序代码，推导程序的行为，分析程序的性质
控制流(Contorl flow):程序执行的流程
数据流(Data flow)：数据在控制流上的传递
通过分析控制流和数据流，我们可以知道更多关于程序的性质

流程控制分析.png

过程内分析和过程间分析

过程内分析,仅在函数内部进行分析
过程间分析，考虑函数调用是参数传递和返回值的数据流和控制流

Go 编译器优化

为什么做编译器优化

用户无感知，重新编译即可获得性能收益
通用性优化

编译优化的思路

场景：面向后端长期执行任务
Tradeoff：用编译时间换取更高效的机器码

Beast mode

内联函数
逃逸分析
..........

内联函数

内联：将被调用函数的函数体的副本替换到调用位置上，同时重写代码以反映参数的绑定

优点：

消除函数调用开销，例如传递参数，保存寄存器等
将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析

缺点：

函数体变大，instruction cache不友好
编译生成的Go镜像变大

函数内联在大多数情况下是正向优化，内联的策略：调用和被调用的规模......

Beast Mode

Go函数内联受到的限制较多(与Go语言的特性有关)
- 语言特性，例如interface，defer等限制了函数内联
- 内联策略非常保守

Beast Mode：调整函数内联的策略，使更多函数被内联
- 降低函数调用的开销
- 增加了其他优化的机会：逃逸分析

开销
- Go镜像增加
- 编译时间增加

逃逸分析

分析代码中指针的动态作用域(指针在何处可以被访问)

大致思路

从对象分配处出发，沿着控制流，观察对象的数据流
若发现指针p在当前作用域s
- 作为参数传递参数传递给其他函数
- 传递给全局变量
- 传递给其他的goroutine
- 传递给已逃逸的指针指向的对象

Beast mode :函数内联拓展了函数边界，更多对象不逃逸
优化:未逃逸的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动sp
- 减少在heap上的分配，降低GC负担

小结

分析问题的方法与解决问题的思路对所有语言都有效