高性能Go语言发行版优化与落地实践|青训营笔记这是我参与「第五届青训营」笔记创作活动的的第4天本文导航：优化内存

这是我参与「第五届青训营」笔记创作活动的的第4天

本文导航：

优化

内存管理优化
编译器优化

背景

自动内存管理和Go内存管理机制
编译器优化的基本问题和思路

01.自动内存管理

自动内存管理

动态内存：程序运行时根据需求分配的内存：malloc()

自动内存管理（垃圾回收）：由程序语言运行时系统管理动态内存

避免手动管理内存，专注于实现业务逻辑
保证内存使用的正确性和安全性

三个任务：

为新对象分配空间
找到存活对象
回收死亡对象的内存空间

相关概念：

Mutator:：业务线程，分配新对象，修改对象指向关系
Collector：GC线程，找到存活对象，回收死亡对象的内存空间
Serial GC：暂停mutator执行GC，只有一个collector
Parallel GC：支持多个collectors同时回收的GC算法，依然支持暂停
Concurrent GC：mutators和collector可以同时执行
- Collectors必须感知对象指向关系的改变

评价GC算法：

安全性：不能回收存活对象 基本要求
吞吐率：1−GC时间/程序时间程序执行总时间1−程序执行总时间G**C时间 花在GC上的时间越少越好
暂停时间：stop the world 业务是否感知，时间越短越好
内存开销：越小越好 GC元数据开销

2.追踪垃圾回收

对象被回收的条件：指针指向关系不可达的对象
标记根对象
- 静态变量、全局变量、常量、线程栈等
标记：找到可达对象
- 求指针指向关系的传递闭包：从根对象出发，找到所有可达对象
清理：所有不可达变量
- 将存活对象复制到另外的内存空间（Copying GC）
将死亡对象的内存标记为‘可分配’（Mark-sweep GC，标记清理GC)，用一个freelist将死亡对象内存空间管理起来，在freelist中进行内存分配
- 移动并整理存货对象(Mark-compact GC)
根据对象的生命周期，使用不同的标记和清理策略

3.分代GC(Generational GC)

分代假说：大多数对象很快就死掉了
Intution：很多对象在分配出来之后很快就不再使用了
每个对象都有年龄：对象经历GC的次数
目的：针对年轻和老年的对象，制定不同的GC策略，降低内存整体的开销
不同年龄的对象处于heap的不同区域
年轻代（young generation）
- 常规对象的分配
- 由于存活对象很少，可以采用copying collection
- GC吞吐量很高
老年代（old generation）
- 对象趋向于一直活着，反复复制开销较大
- 可以采用mark-sweep collection

4.引用计数

每个对象都有一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于0
优点：
- 内存管理的操作被平摊到程序执行过程中
- 内存管理不需要了解runtime的实现细节
缺点
- 维护开销大：我们需要通过原子操作保证引用计数操作的原子性和可见性
- 无法回收环形数据结构--------weak reference
- 内存开销：每个对象都引入的额外内存空间存储引用数目
- 回收内存依然可能引发暂停

02. Go内存管理及优化

1.Go内存分配

分块

目标：为对象在heap上分配内存做法：提前将内存分块

调用系统调用mmap()，向os申请一大块内存，例如4MB
先将内存划分大块，如8KB，称作mspan
再将大块继续划分为特定大小的小块，用于对象分配
noscan mspan：分配不包含指针的对象——GC不需要扫描
scan mspan：包含指针的对象——GC需要扫描

对象分配：根据对象的大小，选择合适的块返回

缓存

TCMalloc:thread caching
每个p包含一个mcache用于快速分配，用于为绑定与p上的g分配对象
mcache管理一组mspan，大小不同，分配对象时返回一块合适大小的mspan
当mcache中的mspan分配完毕，向mcentral中申请带有未分块的mspan
当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立即释放并归还给OS

2.Go内存管理优化

对象分配是高频的操作：每秒分配GB级别的内存
小对象占比较高
Go内存分配比较耗时
- 分配路径长：g->m->p->mcache->mspan->memory block->return pointer
- pprof：对象分配的函数时最频繁调用的函数之一

3.字节的优化方案：Balanced GC

每个g都绑定一大块内存（1KB），称为goroutine allocation buffer(GAB)
GAB用于noscan类型的小对象分配：<128B
使用三个指针维护GAB：base,end,top
Bump pointer（指针碰撞）风格的对象分配:直接返回top所指向的内存
- 无需和其他分配请求互斥
- 分配动作简单高效
GAB对go的内存管理来说是一个大对象
本质：将多个小对象的分配合并成一次大对象的分配（小对象的分配次数大大减少）
问题：GAB的对象分配方式回导致内存被延迟释放：GAB就是一个对象，其中只有一小块内存存活就会认为整个GAB是存活的
方案：移动GAB中存活的对象
- GAB总大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中
- 原先的GAB可以释放，避免内存泄漏
- 本质：用copying GC的算法管理小对象

03. 编译器和静态分析

1 编译器的结构

重要的系统软件
- 识别符合语法和非法的程序
- 生成正确且高效的代码

分析部分（前端front end）
- 词法分析：生成词素（lexeme）
- 语法分析：生成语法树（AST）
- 语义分析：收集类型信息，进行语义检查
- 中间代码生成：生成imtermediate representation（IR）
综合部份（后端 back end）(重点学习)
- 代码优化，机器无关优化，生成优化后的IR
- 代码生成，生成目标代码

2 静态分析

静态分析：不执行程序代码，推导程序行为，分析程序性质
控制流：程序执行的流程
数据流：数据在控制流上的传递
通过分析控制流和数据流，了解更多关于程序的性质，根据这些性质优化代码

3 过程内分析和过程间分析

过程内分析：仅在函数内部进行分析、
过程间分析：考虑函数调用时的参数传递和返回值的数据流和控制流

04. Go编译器优化

1.函数内联(lnlining)

内联：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定

优点：

消除函数调用开销，例如传递参数、保存寄存器等
将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析

缺点：

函数体变大，instruction cache(icache)不友好
编译生成的Go镜像变大

函数内联在大多数情况下时正向优化
内联策略：根据调用和被调用函数的规模决定是否做内联

2.Beast Mode

调整函数内联的策略，使更多函数被内联

逃逸分析：分析代码中指针的动态作用域：指针在何处可以被访问

思路：

从对象分配出出发，沿着控制流，观察对象的数据流
若发现指针p在当前作用域s：
- 作为参数传递给其他函数
- 传递给全局变量
- 传递给其他的goroutine
- 传递给已逃逸的指针指向的对象
则指针p指向的对象逃逸出s，反之则没有逃逸出s
Beast mode:函数内联拓展了函数边界，使更多的对象不逃逸了
优化：未逃逸的对象可以在栈上分配
- 对象在站上分配回收很快：移动sp
- 减少在heap上的分配，降低了GC的开销