day04 go性能优化及自动内存管理｜青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第 4 天性能优化

这是我参与「第五届青训营」伴学笔记创作活动的第 4 天

性能优化

为什么要做性能优化？

用户体验：带来用户体验的提升 —— 让刷抖音更丝滑，让双十一购物不再卡顿资源高效利用：降低成本，提高效率 —— 很小的优化乘以海量机器会是显著的性能提升和成本节约

内存管理优化
编译器优化

背景

自动内存管理和Go内存管理机制
编译器优化的基本问题和思路

性能优化的层面

软件质量

截屏2023-01-19 上午11.21.02.png 保证接口稳定的前提下改进实现

测试驱动通过清晰的文档告诉用户这一项优化做了什么，没做什么，能达到怎样的效果隔离，优化代码用选项和原先的路径隔离，保证优化未启用时的行为同以前一致可观测、可灰度、可回滚

自动内存管理

概念

动态内存：程序在运行时根据需求动态分配的内存：malloc()

自动内存管理：由程序语言的运行时系统管理动态内存
- 避免手动内存管理，专注于实现业务逻辑
- 保证内存使用的正确性和安全性: double-free problem（连续两次释放同一块内存）, use-after-free problem（释放之后又使用了这块内存）

三个任务

为新对象分配空间
找到存活对象
回收死亡对象的内存空间

概念 Mutator: 业务线程，分配新对象，修改对象指向关系 Collector: GC 线程，找到存活对象，回收死亡对象的内存空间 Serial GC: 只有一个 collector Parallel GC: 并行 GC，支持多个 collectors 同时回收的 GC 算法 Concurrent GC: 并发 GC，支持 mutator(s) 和 collector(s) 同时执行的 GC 算法

- collectors 必须感知对象指向关系的改变

三色标记法混合写屏障

评价GC算法

安全性 Safety：不能回收存活对象基本要求吞吐率 Throughput: 1-GC 时间/程序执行总时间花在GC上的时间暂停时间 Pause time: stop the world 业务是否感知内存开销 space overhead : GC 元数据开销

tracing garbage collection

Generation GC

Reference counting

这上面一部分学过JVM 原理都相同就不赘述了可参考老师链接：juejin.cn/post/718952…

Go内存管理及优化

提前将内存分块

调用系统调用 mmap() 向 OS 申请一大块内存，例如 4 MB 先将内存划分成大块，例如 8 KB，称作 mspan 再将大块继续划分成特定大小的小块，用于对象分配 noscan mspan: 分配不包含指针的对象 —— GC 不需要扫描 scan mspan: 分配包含指针的对象 —— GC 需要扫描对象分配：根据对象的大小，选择最合适的块返回

缓存

TCMalloc: TC is short for thread caching Go 内存管理构成了多级缓存机制，从 OS 分配得的内存被内存管理回收后，也不会立刻归还给 OS，而是在 Go runtime 内部先缓存起来，从而避免频繁向 OS 申请内存。内存分配的路线图如下每个p包含一个mcahce用于快速分配，用于绑定于p上的g分配对象 mcache 管理一组mspan 当mcach中的mspan分配完毕，向mcentral申请带有未分配块的mspan 当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立刻释放并归还给OS

问题

对象分配是非常高频的操作：每秒分配 GB 级别的内存小对象分配占大多数线上 profiling 发现，Go 的内存分配占用很多 CPU

分配路径长：g->m->p->mcache->mspan->memory block->return pointer

字节跳动的优化方案 Balanced GC

每个g都绑定一大块内存 1KB，称作 goroutine alloctation buffer (GAB)
GAB 用于 noscan 类型的小对象分配：<128B
使用三个指针维护GAB：base,end,top
Bump pointer （指针碰撞）风格对象分配
- 无须和其他分配请求互斥
- 分配动作简单高效

小结

Go 内存管理——分块
Go 内存管理——缓存
Go 对象分配的性能问题
- 分配路径过长
- 小对象居多
Balanced GC
- 指针碰撞风格的对象分配
- 实现了copying GC
- 性能收益

编译器和静态分析

静态分析：不执行代码，推导程序的行为，分析程序的性质。控制流：程序的执行流程数据流：数据在控制流上的传递

数据流和控制流

举例

截屏2023-01-19 下午5.24.12.png

过程内和过程间分析

过程内分析 intra-procedural analysis
- 仅在过程内部进行分析
过程间分析 inter-procedural analysis
- 考虑过程调用时参数传递和返回值的数据流和控制流

小结

编译器的结构和编译的流程
编译器后端优化
静态分析
- 数据流分析和控制流分析
- 过程内分析和过程间分析

Go 编译器优化

函数内联 inlining

内联：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定
优点
- 消除函数调用开销，例如传递参数，保存寄存器等
- 将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析
函数内联能多大程度影响性能？——使用micro-benchmark验证一下

逃逸分析

逃逸分析：分析代码中指针的动态作用域——指针在何处可以被访问大致思路
从对象分配处出发，沿着控制流，观察数据流。若发现指针 p 在当前作用域 s:
作为参数传递给其他函数；
- 传递给全局变量；
- 传递给其他的 goroutine;
- 传递给已逃逸的指针指向的对象；
则指针 p 逃逸出 s，反之则没有逃逸出 s.
Beast mode: 函数内联拓展了函数边界，更多对象不逃逸 优化：未逃逸出当前函数的指针指向的对象可以在栈上分配
对象在栈上分配和回收很快：移动 sp 即可完成内存的分配和回收；
减少在堆上分配对象，降低 GC 负担

day04 go性能优化及自动内存管理 ｜青训营笔记