这是我参与「第五届青训营 」伴学笔记创作活动的第 9 天。
高性能GO语言发行版优化与落地实践(上)
这章讲述对内存管理的优化,并讲述字节跳动遇到的性能问题及优化方案。
自动内存管理
动态内存指程序在运行时根据需求动态分配的内存,比如malloc()。自动内存管理(垃圾回收)是由程序语言在运行时系统回收动态内存,可以避免手动内存管理,专注于实现业务逻辑;保证内存使用的正确性和安全性(double-free problem, use-after-free problem)。总之自动内存管理会负责三个任务:为新对象分配空间,找到存活对象,回收死亡对象的内存空间。
相关概念及缩写
- Mutator:业务线程,分配新对象,修改对象指向关系。
- Collector:GC线程,找到存活对象,回收死亡对象的内存空间。
- Serial GC:只有一个collector。
- Parallel GC:支持多个collectors同时回收的GC算法。
- Concurrent GC:mutator(s)和collector(s)可以同时执行,且Collectors必须感知对象指向关系的改变。
GC算法:
- 安全性Safety:不能回收存活的对象是基本要求。
- 吞吐率Throughput:1-GC时间/程序执行总时间(花在GC上的时间)。
- 暂停时间Pause Time:stop the world(STW)(业务是否感知)。
- 内存开销Space Overhead:GC元数据开销。
追踪垃圾回收(Tracing garbage collection)
- 当指针指向关系不可达的对象时,对象会被回收。
- 标记根对象:静态变量、全局变量、常量、线程栈等。
- 标记:找到可达对象,求指针指向关系的传递闭包,从根对象出发找到所有可达对象。
- 清理所有不可达对象:
- 将存活对象复制到另外的内存空间(Coping GC)
- 将死亡对象的内存标记为“可分配”(Mark-sweep GC)
- 移动并整理存活对象(Mark-compact GC)
- 将存活对象复制到另外的内存空间(Coping GC)
- 根据对象生命周期,使用不同的标记和清理策略。
分代GC(Generational GC)
- 分代假说:most objects die young。
- Intuition:很多对象在分配出来后就不再使用了。
- 每个对象都有年龄:经过GC的次数。
- 目的:针对年轻和老年的对象,制定不同的GC策略,降低整体内存管理的开销。
- 不同年龄的对象处于heap的不同区域。
- 年轻代(Young Generation):
- 常规的对象分配
- 由于存活对象很少,可以采用copying collection
- 老年代(Old Generation):
- 对象趋向于一直活着,反复复制开销较大
- 可以采用mark-sweep collection
引用计数(Reference counting)
每个对象都有一个与之关联的引用数目,当且仅当引用数大于0时对象才能存活。
优点是内存管理的操作能被平摊到程序执行过程中,且内存管理不需要了解runtime的实现细节:C++智能指针(smart pointer)。
缺点:
- 维护引用计数的开销大,需通过原子操作保证对引用计数操作的原子性和可见性。
- 无法回收环形数据结构(weak reference)。
- 内存开销:每个对象都引入的额外内存空间存储引用数目。
- 回收内存时依然可能引发暂停。
GO内存管理及优化
GO内存分配-分块
目标是为对象在heap上分配内存。
- 提前将内存分块:
- 调用系统用mmap()向OS申请一大块内存,例如4MB
- 先将内存划分成大块,例如8KB每块,称作mspan
- 再将大块继续划分成特定大小的小块,用于对象分配
- noscan mspan:分配不包含指针的对象-GC不需要扫描
- scan mspan:分配包含指针的对象-GC需要扫描
- 对象分配:根据对象的大小,选择最合适的块返回
GO内存分配-缓存
- TCMalloc:thread caching
- 每个p包含一个mcache用户快速分配,用于为绑定于p上的g分配对象。
- mcache管理一组mspan
- 当mcache中的mspan分配完毕,向mcentral申请带有未分配块的mspan
- 当mspan中没有分配的对象,mspan会被缓存在mcentral中,而不是立刻释放并归还给OS
GO内存管理优化
- 对象分配是非常高频的操作:每秒分配GB级别的内存。
- 小对象占比较高
- GO内存分配比较耗时:
- 分配路径长:g->m->p->mcache->mspan->memory block->return pointer
- 线上pprof:对象分配的函数是最频繁调用的函数之一
优化方案:Balanced GC
- 每个g都绑定一大块内存(1KB),称作goroutine allocation buffer(GAB)
- GAB用于noscan类型的小对象分配:<128B
- 使用三个指针维护GAB:base,end,top
- Bump pointer(指针碰撞)风格对象分配
- 无须和其他分配请求互斥
- 分配动作简单高效
- GAB对于GO内存管理来说是一个对象
- 本质:将多个小对象的分配合并成一次大对象的分配
- 问题:GAB的对象分配方式会导致内存被延迟释放
- 方案:移动GAB中存活的对象:
- 当GAB总大小超过一定阈值时,将GAB中存活的对象复制到另外分配的GAB中
- 原先的GAB可以释放,避免内存泄露
- 本质是用coping GC算法管理小对象(根据对象的生命周期,使用不同的标记的清理策略)
- 效果明显:高峰期CPU usage降低4.6%,核心接口时延下降4.5%~7.7%。
总结
这章介绍了GO内存管理分两种模式,分别是分块和缓存;也介绍了GO对象分配的性能问题,包括分配路径过长和小对象居多;解决方式是Balanced GC:指针碰撞风格的对象分配、实现了copying GC、性能收益。