这是我参与「第三届青训营 -后端场」笔记创作活动的第3篇笔记
优化:
- 内存管理优化
- 编译器优化
背景:
- 自动内存管理和Go内存管理机制
- 编译器优化的基本问题和思路
- 实践: 遇到的性能问题及优化方案
基本问题
1.什么是性能优化?
- 提升软件系统处理能力,减少不必要消耗,充分发掘计算机算力
2.为什么?
- 用户体验
- 资源高效利用:降低成本,提高效率
性能优化的两个层面
性能优化的可维护性
课程目录
一.自动内存管理
概念: Tracing garbage collection Generational GC Reference counting
- 动态内存:程序在运行时根据需求动态分配的内存
- 自动内存管理(垃圾回收):由程序语言的运行时系统管理动态内存
- 避免手动,专注业务
- 保证内存使用正确 安全(double-free,use-afer-free)
- 3个任务
- 为新对象分配空间
- 找到存活对象
- 回收死亡对象的内存空间
相关概念
-
Mutator: (用户启动的goroutine)业务线程,分配新对象,修改对象指向关系
-
Collector: GC线程,找到存活对象,回收死亡对象的内存空间
-
Serial GC: 只有一个collector
-
Parallel GC: 支持多个collectors 同时回收的GC算法
-
Concurrent GC: mutator(s)和collector(s)可以同时执行
**Concurrent GC的挑战:**必须感知对象指向关系的改变
评价GC算法
- 希望GC时间越少越好->吞吐率越高越好
- GC内存开销越小越好
两种常见GC技术 1.追踪垃圾回收
对象被垃圾回收的条件:指针指向关系不可达的对象
步骤
- 标记根对象
- 静态变量,全局变量,常量,线程栈等
- 标记:找到可达对象
- 求指针指向关系的传递闭包:从根对象出发,找到所有可达对象
- 清理:所有不可达对象
- Copying GC 将存活对象复制到另外的内存空间
- Mark-sweep GC 标记清理GC
将死亡对象的内存标记为"可分配"
将死亡对象的内存空间用free list管理起来,用free list这个块去做内存分配
- Mark-compact GC 标记压缩GC
移动并整理存活对象
原地整理对象
根据对象的生命周期,使用不同的标记和清理策略
常见内存管理的方式
分代GC(Generational GC)
分代假说(Generation hypothesis):most objects die young
Intuition:很多对象在分配出来后很快就不再使用
每个对象都有年龄:经过GC的次数
目的:对年轻和老年的对象,指定不同的GC策略,降低整体内存管理的开销
不同年龄的对象放在于heap的不同区域
2. 引用计数
- 每个对象都有一个与之关联的引用数目
- 对象存活的条件:当且仅当引用数大于0
优点:
- 内存管理的操作被平摊到程序执行过程中
- 内存管理不需要了解runtime的实现细节:C++ 智能指针(smart pointer)
缺点
- 维护引用计数的开销较大:通过原子操作保证对引用计数操作的原子性和可见性
- 无法回收环形数据结构 —— weak reference 》
- 内存开销:每个对象都引入额外的内存空间存储引用数目
- 回收内存时依然可能引发暂停 回收大的数据结构时
二.Go内存管理及优化
Go内存分配
1.分块
- 目标:为对象在heap上分配内存
- 做法:提前将内存分块
- 系统调用mmap()向OS申请一大块内存,eg.4MB
- 先将内存划分成大块,eg.8KB 称作mspan
- 再将大块继续划分成特定的小块,用于对象分配
- mspan分类
- noscan mspan:分配不包含指针的对象——GC不需要扫描
- scan mspan:分配包含指针的对象——GC需要扫描(找到指针指向的对象)
- 对象分配:根据对象的大小,选择最合适的块返回
一行是一个mspan,将每个mspan划分成不同大小的块
2.缓存
- 借鉴了TCMalloc:thread caching
- 每个p包含一个mcache用于快速分配,用于为绑定于p上的g分配对象
- mcache 管理一组mspan
- 当mcache中的mspan分配完毕,向mcentral申请带有未分配块的mspan
- 当mspan中没有分配的对象,mspan会被缓存在central中,而不是like释放并归还给OS
多层缓存,快速分配对象 如果存在mspan已经清空,不会立即返回给OS,而是先缓存在系统中,有人需要再进行分配,当然也会根据一定策略将空余mspan还给OS
从goroutine出发->m->p(p上数据结构mcache)->根据对象大小找到最合适的mspan的空余块返回/如果没找到(mspan都是满的),则从下一级别缓存mcentral中找到带有空余对象的mspan进行交换,将mspan填到mcache中去,在这个mspan中找再返回/如果mcentral满了,找mheap
Go内存管理优化
- 对象分配是非常高频的操作:每秒分配GB级别的内存
- 小对象占比较高 -Go内存分配比较耗时 -分配路径长:g->m->p->mcache->mspan->memory block->return pointer
- pprof: 对象分配的函数是最频繁调用的函数之一 mallocgc
优化方案:
- 每个g都绑定一大块内存(1KB),称作goroutine allocation buffer(GAB)
- GAB用于noscan类型的小对象分配:<128 B -scan类型的对象,可能指向很多对象,导致很多对象都被延迟释放
- 使用三个指针维护GAB:base,end,top
-
Bump pointer(指针碰撞)风格对象分配 不需要走g->m->p->mcache的流程,而是操纵指针
-
无需和其他分配请求互斥
-
分配动作简单高效
-
GAB对于Go内存管理来说是一个大对象 GAB大对象分配走g->m->p
-
本质:将多个小对象的分配合并成一次对大对象的分配(还需要修改指针,原本对象没有指针指向他,就会自动释放)
-
问题: GAB对象分配方式会导致内存被延迟释放(小对象存活导致整个GAB的存活) -解决方案: 移动GAB中存活的对象
-
当GAB总大小超过一定阈值时,将GAB中存活的对象复制到另外分配的GAB中
-
原先的GAB可以释放,避免内存泄漏
-
本质:用copying GC的算法管理小对象----根据对象的生命周期,使用不同的标记和清理策略
Go GC分为三个阶段,刚开始和最后时都需要做stop work eg。在扫描goroutine栈时,在扫描哪个goroutine可以把哪个goroutine暂停,中间的标记是并行的,可以Concurrent GC
三.编译器和静态分析
IR是机器无关的
过程内分析和过程间分析
四.Go编译器优化
函数内联
逃逸分析 分析代码中指针的动态作用域:指针在何处可以被访问