高性能Go语言发行版优化与落地实践

概述

为什么要做性能优化

性能优化是什么？
- 提升软件系统处理能力，减少不必要的消耗，充分挖掘计算机的算力
为什么要做性能优化
- 用户体验：给用户体验带来提升
- 资源高效利用：降低成本，提高效率

性能优化的层面

业务代码
SDK
基础库
语言运行时
OS 业务层优化
针对特定场景，具体问题、具体分析
容易获得较大的性能收益 语言运行时优化
解决更通用的性能问题，考虑更多场景
Tradeoffs（权衡） 数据驱动的方式进行优化
自动化性能分析工具--pprof
依靠数据而非猜测
首先优化最大瓶颈

性能优化与软件质量

在保证接口稳定的前提下改进具体场景
测试用例尽可能覆盖更多场景，方便回归
清晰文档：做了多少，没做多少，能达到怎样的效果
隔离：通过选项控制是否开启优化
可观测：必要的日志输出

自动内存管理：

基本概念

动态内存：在程序运行时根据需求动态分配的内存
自动内存管理：由程序语言的运行时系统管理动态内存
- 避免手动内存管理
- 保证内存使用的正确性和安全性：double-free、use-after-free
自动内存管理的任务：
- 为新对象分配空间
- 找到已分配对象
- 回收被释放的对象
相关名词
- Mutator：业务线程，分配新对象，修改对象的指向关系
- Collector： GC线程，找到存活对象，回收死亡对象的空间
- Serial GC:只有一个collector
- Parallel GC：支持多个collector 同时回收的GC
- Concurrent GC：mutator(s) 和 collector(s) 同时执行，要求Collertors 必须感知对象指向关系的改变
GC的评价标准：
- 安全性（Safet）：不能回收存活对象
- 吞吐率（Throughput）： $1- {GC时间\over程序执行时间}$
- 暂停时间（Pause time）：stop the world(STW)业务是否感知
- 内存开销（Space overhead）：GC元数据开销
追踪垃圾回收（Tracing garbage collection）
引用计数（Reference counting）

Tracing garbage collection

过程

对象被回收的条件：指针指向关系不可达的对象
标记根对象：静态变量、全局变量、常量、线程栈等
标记：找到可达对象
清理：所有不可达对象 清理策略

将存活对象复制到另外的内存空间（Copying GC）
- 适合存活数量少的空间，需要额外空间
将死亡对象的内存标记为可分配（Mark-sweep GC）
- 适合存活数量多的空间
移动整理存货对象（Mark-compact GC）
- 适合存活数量少的空间，不需要额外空间 根据对象的生存周期来选择清理策略

分带GC（Generational GC）

分代假说：most objects die young。
- 弱分代假说（Weak Generational Hypothesis）：绝大多数对象都是朝生夕灭的。
- 强分代假说（Strong Generational Hypothesis）：熬过越多次垃圾收集过程的对象就越难以消亡。
- 跨代引用假说（Intergenerational Reference Hypothesis）：跨代引用相对于同代引用来说仅占极少数。
对象被划分为两类
- 年轻代：
  - 存活的对象少
  - 采用Copying GC
- 老年代：
  - 对象趋向于一直存活
  - Mark-sweep GC为主，可以定期Mark-compact GC（减少内存碎片）

引用计数

过程
1. 每个对象都有一个与之关联的引用数
2. 当引用数大于0时，对象存活
优点：
- 内存管理操作被平摊到程序执行过程中
- 内存管理不需要了解 runtime 的实现细节
缺点：
- 维护引用计数需要原子性操作
- 存在循环引用的问题（weak_ptr在一定程度上可以解决）
- 内存开销：每个对象都引入了额外的内存空间
- 回收内存时依然可能引起暂停

Go内存分配

分块

过程

调用系统的mmap（）向OS申请一大块内存，例如4MB
先将内存划分为大块，称为mspan
再将大块继续划分为特定大小的小块，用于对象分配
再根据对象是否包含指针分为两类
- noscan mspan：分配不包含指针的对象，GC不需要扫描
- scan mspan - 分配包含指针的对象，GC需要扫描

缓存

1653616180(1).png

每个p包含一个mcache用于快速分配，用于绑定p上的g分配对象
mcache 管理一组 mspan
当mcache中的mspan分配完毕，向mcentral申请带有未分配块的mspan
mspan 中没有分配的对象，mspan会被缓存在mcentral 中，而不是立刻释放并归还给OS balanced GC
每个g都绑定一大块内存（1KB），称作goroutine allocation buffer
GAB用于noscan类型的小对象分配<128B
使用三个指针维护GAB：base，end，top
Bump pointer风格对象分配
- 无需和其他分配请求互斥（每个g都有自己单独的分配空间，以空间换时间）
- 分配动作简单高效（只需要移动指针）
本质上通过将多次小对象的分配变为大对象的分配，但是GAB必须所有的对象都死亡，才会被回收，会存在延迟释放的问题
- 解决方案：当GAB的大小超过一定阈值后，合并存活对象

编译器和静态分析

编译器的结构

重要的软件系统
- 识别符合语法和非法的程序
- 生成正确且高效的代码
分析部分（前端）
- 词法分析，生成词素
- 语法分析，生成语法树
- 语义分析，收集类型信息
- 中间代码，生成intermediate repreation
综合部分（后端）
- 代码优化，机器无关优化，生成优化后的IR
- 代码生成，生成目标代码

静态分析

静态分析：不执行程序代码，推到程序的行为，分析程序的性质
- 控制流：程序执行的流程
- 数据流：数据在控制流上的传递

过程内分析和过程间分析

过程内分析：仅在过程内分析
过程间分析：考虑过程调用时参数传递和返回值的数据流和控制流
- 过程间分析的问题：
  - 需要通过数据流分析得知i的具体类型，才知道i.foo()调用的是哪个foo
  - 根据 i 的具体类型，产生了新的控制流，i.foo(),分析继续
  - 过程间分析需要同时分析控制流和数据流----联合求解，比较复杂

青训营高性能Go语言发行版优化与落地实践笔记

高性能Go语言发行版优化与落地实践

概述

为什么要做性能优化

性能优化的层面

性能优化与软件质量

自动内存管理：

基本概念

Tracing garbage collection

引用计数

Go内存分配

分块

缓存

编译器和静态分析

编译器的结构

静态分析

过程内分析和过程间分析