这是我参与「第三届青训营 -后端场」笔记创作活动的的第2篇笔记。

性能优化

业务代码：直接处理用户的请求
SDK代码、基础库：提供了一些抽象的逻辑，如数据结构、网络库、IO库等
语言运行时：提供语言的一些实现，如gc,调度器等 os：提供一个隔离的运行时环境

优化方式：

业务层优化：
- 针对特定场景、具体问题
- 容易获得较大的性能受益
语言运行时优化
- 解决更通用的性能(内存分配问题，编译器生成代码质量的问题)
- 考虑更多场景
- Tradeoffs
数据驱动
- 自动化性能分析工具pprof
- 依靠数据而非猜测

GoSDK:

接口
- Commands
- APIs
- New APIs：做性能优化提供的一些新API
实现
- Compiler
- Schedule
- GC
- Runtime
- Libs
- Profiling

优化要求：

在保证接口稳定的前提下改进具体实现
测试用例：覆盖尽可能多的场景，方便回归，以测试驱动优化
文档：做了什么，没做什么，能达到怎样的效果
隔离：通过选项控制是否开启优化
可观测：必要的日志输出

01. 自动内存管理

1.1 基本概念

动态内存：程序运行时根据需求分配的内存：malloc()
自动内存管理（垃圾回收）：由程序语言运行时系统管理动态内存
- 避免手动管理内存，专注于实现业务逻辑
- 保证正确性和安全性
三个任务：
- 为新对象分配空间
- 找到存活对象
- 回收死亡对象的内存空间

评价GC算法：

安全性：不能回收存活对象 基本要求
吞吐率： $1-\frac{GC时间}{程序执行总时间}$ 花在GC上的时间越少越好
暂停时间：stop the world 业务是否感知，时间越短越好
内存开销：越小越好 GC元数据开销

1.2 追踪垃圾回收

对象被回收的条件：指针指向关系不可达

步骤：

标记根对象
- 静态变量、全局变量、常量、线程栈等
标记：找到可达对象
- 求指针指向关系的传递闭包：从根对象出发，找到所有可达对象
清理所有不可达变量 三种方法
- 将存活对象复制到另外的内存空间，剩下的内存空间进行对象分配（Copying GC）
- 将死亡对象的内存标记为‘可分配’（Mark-sweep GC，标记清理GC)，用一个freelist将死亡对象内存空间管理起来，在freelist中进行内存分配
- 移动并整理存货对象(Mark-compact GC)，原地整理对象，将存货的对象进行压缩，存放在内存最开始的地方，剩下的空间进行分配
  - Copying GC用了一个额外的空间整理对象，而Mark-compact GC则是在原地进行整理
- 根据对象的生命周期，使用不同的标记和清理策略

1.3 分代GC(Generational GC)

分代假说：大多数对象很快就死掉了
Intution：很多对象在分配出来之后很快就不再使用了
每个对象都有年龄：对象经历GC的次数
目的：针对年轻和老年的对象，制定不同的GC策略，降低内存整体的开销
不同年龄的对象处于heap的不同区域

年轻代（young generation）
- 常规对象的分配
- 由于存活对象很少，可以采用copying collection
- GC吞吐量很高
老年代（old generation）
- 对象趋向于一直活着，反复复制开销较大
- 可以采用mark-sweep collection

1.4 引用计数

每个对象都有一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于0

这个方法操作系统有类似的方法，一个文件在内存中被多个指针指向，当指向文件的指针清零时，文件才被删除

优点：
- 内存管理的操作被平摊到程序执行过程中
- 内存管理不需要了解runtime的实现细节
缺点
- 维护开销大：我们需要通过原子操作保证引用计数操作的原子性和可见性
- 无法回收环形数据结构：可通过weak reference解决
- 内存开销：每个对象都引入的额外内存空间存储引用数目
- 回收内存依然可能引发暂停

02. Go内存管理及优化

2.1 Go内存分配

分块

目标：为对象在heap上分配内存做法：提前将内存分块

调用系统调用mmap()，向os申请一大块内存，例如4MB
先将内存划分大块，如8KB，称作mspan
再将大块继续划分为特定大小的小块，用于对象分配
noscan mspan：分配不包含指针的对象——GC不需要扫描
scan mspan：包含指针的对象——GC需要扫描

对象分配：根据对象的大小，选择合适的块返回

缓存

TCMalloc:thread caching
每个p包含一个mcache用于快速分配，用于为绑定与p上的g分配对象
mcache管理一组mspan，大小不同，分配对象时返回一块合适大小的mspan
当mcache中的mspan分配完毕，向mcentral中申请带有未分块的mspan
当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立即释放并归还给OS

2.2 Go内存管理优化

Goroutine的并发编程模型基于GMP模型，简要解释一下GMP的含义：

G:表示goroutine，每个goroutine都有自己的栈空间，定时器，初始化的栈空间在2k左右，空间会随着需求增长。

M:抽象化代表内核线程，记录内核线程栈信息，当goroutine调度到线程时，使用该goroutine自己的栈信息。

P:代表调度器，负责调度goroutine，维护一个本地goroutine队列，M从P上获得goroutine并执行，同时还负责部分内存的管理。

对象分配高频
- 小对象占比较高
- Go内存分配路径长
  - g->m->p->mcache->mspan->memory block->return pointer

字节的优化方案：Balanced GC

每个g都绑定一大块内存（1KB），称为goroutine allocation buffer(GAB)
GAB用于noscan类型的小对象分配：<128B
使用三个指针维护GAB：base,end,top
Bump pointer（指针碰撞）风格的对象分配:直接返回top所指向的内存

if top + size <= end{
	addr := top
	top += size
	return addr
}

无需和其他分配请求互斥，分配动作简单高效

GAB对go的内存管理来说是一个大对象
本质：将多个小对象的分配合并成一次大对象的分配（小对象的分配次数大大减少）
问题：GAB的对象分配方式回导致内存被延迟释放：GAB就是一个对象，其中只有一小块内存存活就会认为整个GAB是存活的
方案：移动GAB中存活的对象
- GAB总大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中
- 原先的GAB可以释放，避免内存泄漏
- 本质：用copying GC的算法管理小对象
- 根据对象的生命周期，使用不同的标记和清理策略

03. 编译器和静态分析

3.1 编译器的结构

分析部分（前端）
- 词法分析：生成词素（lexeme）
- 语法分析：生成语法树（AST）
- 语义分析：收集类型信息，进行语义检查
- 中间代码生成：生成imtermediate representation（IR），IR是机器无关的
综合部份（后端）
- 代码优化，机器无关优化，生成优化后的IR
- 代码生成，生成目标代码

3.2 静态分析

静态分析：不执行程序代码，推导程序行为，分析程序性质
控制流：程序执行的流程
数据流：数据在控制流上的传递
通过分析控制流和数据流，了解更多关于程序的性质，根据这些性质优化代码

3.3 过程内分析和过程间分析

过程内分析：仅在函数内部进行分析、
过程间分析：考虑函数调用时的参数传递和返回值的数据流和控制流

04. Go编译器优化

4.1 函数内联

内联：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定

优点：

消除函数调用开销，例如传递参数、保存寄存器等
将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析

缺点：

函数体变大，instruction cache(icache)不友好
编译生成的Go镜像变大

函数内联在大多数情况下时正向优化

内联策略：

根据调用和被调用函数的规模决定是否做内联

4.2 Beast Mode

调整函数内联的策略，使更多函数被内联

逃逸分析

分析代码中指针的动态作用域：指针在何处可以被访问思路：

从对象分配出出发，沿着控制流，观察对象的数据流
若发现指针p在当前作用域s：
- 作为参数传递给其他函数
- 传递给全局变量
- 传递给其他的goroutine
- 传递给已逃逸的指针指向的对象
则指针p指向的对象逃逸出s，反之则没有逃逸出s
Beast mode:函数内联拓展了函数边界，使更多的对象不逃逸了
优化：未逃逸的对象可以在栈上分配
- 对象在站上分配回收很快：移动sp
- 减少在heap上的分配，降低了GC的开销

第四次课：高性能 Go 语言发行版优化与落地实践-课程笔记 | 青训营笔记

性能优化

优化方式：

GoSDK:

优化要求：

01. 自动内存管理

1.1 基本概念

相关概念

评价GC算法：

1.2 追踪垃圾回收

1.3 分代GC(Generational GC)

1.4 引用计数

02. Go内存管理及优化

2.1 Go内存分配

分块

缓存

2.2 Go内存管理优化

字节的优化方案：Balanced GC

03. 编译器和静态分析

3.1 编译器的结构

3.2 静态分析

3.3 过程内分析和过程间分析

04. Go编译器优化

4.1 函数内联

4.2 Beast Mode

逃逸分析