这是我参与「第五届青训营」伴学笔记创作活动的第 4 天，今天学习的是go语言的内存管理，涉及到GC、以及字节内部的Balanced GC方案，还学习了编译器的静态分析以及优化，下面是我今天的收获

Go语言内存管理

1.1 自动内存管理

1.1.1 简介

动态内存

程序在运行时根据需求动态分配的内存：malloc( )
自动内存管理也叫垃圾回收：由程序语言的运行时系统管理动态内存
- 避免手动内存管理，专注于实现业务逻辑
- 保证正确性和安全性：double-free problem(同时释放两个内存)、use-after-free problem(释放后使用)，出现这两个问题不仅会导致程序的正确性也可能导致安全漏洞，所以GC是非常重要的
三个任务
- 为新对象分配空间
- 找到存活对象
- 回收死亡对象的内存

1.1.2 相关概念

Mutator：业务线程，分配新对象修改对象指向关系
Collector：GC线程，找到存活对象，回收死亡对象的内存空间
Serial：只有一个collector
Parallel GC：支持多个collctors同时回收GC的算法
Concurrent GC：mutator(s)和collector(s)可以同时执行
Concurrent GC的Collectors必须感知对象指向关系的改变，因为在GC标记存活的对象的时候，业务线程也会同时分配新的对象指向，如果不感知改变，将会出错
评价GC算法
- 安全性(Safety)：不能回收存活的对象是基本要求
- 吞吐率(Throughput)：1 - GC时间/程序执行总时间
- 暂停时间(Pause time)：stop the world(STW)通俗的来说就是业务是否感知
- 内存开销(Space overhead) GC元数据开销

1.1.3 追踪垃圾回收

对象被回收的条件：指针指向不可达的对象
标记根对象

静态变量、全局变量、常量、线程栈等
标记：找到可达对象

求指针指向关系的传递闭包：从根对象出发，找到所有的可达对象
清理：所有不可达对象

将存活对象复制到另外的内存空间(Copying GC)

简单来说就是开辟一个新空间，将标记为存活的对象copy进去，然后释放原来的空间

将死亡对象的内存标记为"可分配"(Mark-sweep GC)

就是将未标记的对象的内存标记为可分配

移动便整理存活对象(Mark-compact GC)

举个例子，当没有多余的空间的时候将标记为存活的对象都整理到内存开始的地方，然后在标记为存活的对象后面再进行分配

根据对象的生命周期，使用不同的标记和清理策略

1.1.4 分代GC(Genernational GC)

分代假说：most objiects die young
Intuition：很多对象在分配出来后很快就不再使用了
每个对象都有年龄：经历GC的次数
目的：对年轻和老年的对象制定不同的GC策略，降低整体内存管理的开销
不同年龄的对象处于heap的不同区域
年轻代
- 常规的对象分配
- 由于存活对象很少，可采用copying collection
- GC吞吐率很高
老年代
- 对象趋于一直活在，反复复制开销较大
- 可以采用mark-sweep collection

1.1.5 引用计数

每个对象都有一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于0
优点
- 内存管理的操作被平摊到程序执行过程中
- 内存管理不需要了解runtime的实现细节
缺点
- 维护引用技术的开销较大：通过原子操作保证对引用计数操作原子性和可见性
- 无法回收环形数据结构
- 内存开销：每个对象都引入的额外内存空间存储引用数目
- 回收内存时依然可能引发暂停

1.2 Go内存管理及优化

1.2.1 Go内存分配-分块

目标：为对象在heap上分配内存
提前将内存分块
- 调用系统调用mmap( )向OS申请一块大内存
- 先将内存划分成大块，例如8KB,称作mspan
- 再将大块继续划分成特定大小的小块，用于对象分配
- noscan mspan：分配不包含指针的对象-GC不需要扫描
- scan mspan：分配包含指针的对象-GC需要扫描
对象分配：根据对象的大小，选择最合适的块返回

1.2.2 Go内存分配-缓存

TCMalloc: thread caching
每个p包含一个mcache用于快速分配，用于为绑定于p上的g分配对象
mcache管理一组mspan
当mcache中的msapn分配完毕，向mcentral申请带有未分配的mspan
当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立刻释放并归还给os

存在的问题

对象分配是非常高频的操作：每秒分配GB级别的内存
小对象占比高
Go内存分配比较耗时
- 分配路径: g -> m -> p -> mcahe -> mspan -> memory block -> return pointer

1.2.3 优化方案：Balanced GC

每个g都绑定一块内存(1KB)，称作goroutine allocation buffer(GAB)
GAB用于nosacn类型的小对象分配：< 128B
使用三个指针维护GAB：base、end、top
Bump pointer(指针碰撞)风格对象分配
- 无序和其他分配请求互斥
- 分配动作简单高效

大致代码

if top + size <= end {
    addr := top
    top += size
    return addr
}

原理

GAB对于Go内存管理来说是一个对象
本质：将多个小对象的分配合并成一次对象的分配
问题：GAB的对象分配方式会导致内存会被延迟释放(我的理解就是，在GAB中如果只有一个8B的小对象的情况下，还是会被GC标记为一个存活的对象，浪费的内存空间)
解决方案：移动GAB中存活的对象
- 当GAB总大小超过一定阈值时，将GAB 中存活的对象复制到另外分配的GAB中
- 原来的GAB可以释放，避免内存泄漏
- 本质：用copying GC的算法管理小对象

1.3 编译器和静态分析

1.3.1 编译器的结构

重要的系统软件
- 识别符合语法和非法的程序
- 生成正确且高效的代码
分析部分
- 词法分析，生成词素(lexeme)
- 语法分析，生成语法树
- 语义分析，收集类型信息，进行语义检查
- 中间代码生成
综合部分
- 代码优化，机器无关优化，生成优化后的IR
- 代码生成，生成目标代码

1.3.2 静态分析

静态分析：不执行代码，推导程序的行为，分析程序的性质
控制流：程序执行的流程，如if else分支
数据流：数据在控制流上的传递，只分析结果
通过分析控制流和数据流可以知道更多关于程序的性质

1.3.3 过程内分析和过程间分析

过程内分析

仅在函数内部进行分析
过程间分析

考虑过程调用时参数传递和返回值的数据流和控制流

过程间存在的必要性

下面给出一段代码

type I interface {
    foo()
}

type A struct {
}
type B struct {
}

func(a *A) foo() {
    ...
}
func(b *B) foo() {
    ...
}
func bar() {
    i = &A{}    

    i.foo()
}

结果

在i.foo() 这一行要通过数据流分析得知i的具体类型是A或者B，才能知道i.foo()调用的到底是哪个foo()
通过i = &A{}得知i的具体类型产，生了新的控制流A.foo()，分析继续
过程间分析需要同时分析控制和数据流，这一步是比较复杂的因为是联合求解

1.4 Go编译器优化

1.4.1 背景

为什么需要编译器优化
- 用户无感知，只需要重新编译即可或者不小的性能收益
- 通用性优化
现状
- 采用的优化比较少
- 编译时间都追求很短的时间，复杂的代码分析和优化很少进行
编译优化的思路
- 场景：面向后端长期执行任务
- Tradeoff(权衡)：用编译时间换取更高效的机器码
Beast mode
- 函数内联
- 逃逸分析
- 默认栈大小调整
- 边界检查消除
- 循环展开

1.4.2 函数内联(Inlining)

内联：将被调用的函数体的副本替换到调用的位置上，同时重写代码以反映参数的绑定
优点
- 消除函数调用开销，例如传递参数、保存寄存器等
- 将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析
验证

func BenchmarkInline(b *testing.B) {
    rand.Seed(time.Now().UnixNano())
    x := rand.Intn(10000000000)
    y := rand.Intn(10000000000)
    for i := 0; i < b.N; i++ {
        addInline(x, y)
    }

}
func addInline(a, b int) int {
    return a + b
}

func BenchmarkNoInline(b *testing.B) {
    rand.Seed(time.Now().UnixNano())
    x := rand.Intn(10000000000)
    y := rand.Intn(10000000000)
    for i := 0; i < b.N; i++ {
        addNoInline(x, y)
    }

}

//go:noinline
func addNoInline(a, b int) int {
    return a + b
}

结果

得出内联大大提升性能

缺点
- 函数体变大，instruction cache不友好（因为函数体变大，函数可能就不能很好的放进icache里面，会一直报missing）
- 编译生成的Go镜像变大，因为如果出现的递归的情况，一直内联会导致这个问题

函数内联在大多是情况下都是正向优化，但如果出现问题也有解决方法

内联策略

调用和被调用函数的规模，其实就是当调用位置不足的时候就不进行内联

1.4.3 Beast Mode

Go函数内联受到的限制较多
- 语言特性，例如defer、interface等，限制了函数内联
- 内联的策略非常保守，golang本身就十分限制内联
Beast mode：调整函数内联的策略，使更多函数被内联
- 降低函数调用的开销(通过内联降低的开销)
- 增加其他优化的机会(因为由过程间的分析变成了过程内分析)：逃逸分析
开销
- Go镜像增加10%
- 编译时间增加

1.4.3 逃逸分析

逃逸分析：分析代码指针的动态作用域，指针在何处可以被访问

大致思路

从对象分配出发沿着控制流，观察对象的数据流
若发现指针p在当前作用域s
- 作为参数传递给其他函数
- 传递给全局变量
- 传递给其他的goroutine
- 传递给已逃逸的指针指向的对象
则指针p指向的对象逃逸出s，反之没有
Beast mode：函数内联拓展了函数边界，更多对象不逃逸，例如内联多层等
优化：未逃逸的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动sp
- 减少heap上的分配，降低GC负担

后端与 GC | 青训营笔记