高性能GO语言发行版本优化与实践落地(上) | 青训营笔记

103 阅读5分钟

这是我参与「第五届青训营 」伴学笔记创作活动的第 9 天。

高性能GO语言发行版优化与落地实践(上)

这章讲述对内存管理的优化,并讲述字节跳动遇到的性能问题及优化方案。

自动内存管理

动态内存指程序在运行时根据需求动态分配的内存,比如malloc()。自动内存管理(垃圾回收)是由程序语言在运行时系统回收动态内存,可以避免手动内存管理,专注于实现业务逻辑;保证内存使用的正确性和安全性(double-free problem, use-after-free problem)。总之自动内存管理会负责三个任务:为新对象分配空间,找到存活对象,回收死亡对象的内存空间。

相关概念及缩写

  • Mutator:业务线程,分配新对象,修改对象指向关系。
  • Collector:GC线程,找到存活对象,回收死亡对象的内存空间。
  • Serial GC:只有一个collector。
  • Parallel GC:支持多个collectors同时回收的GC算法。
  • Concurrent GC:mutator(s)和collector(s)可以同时执行,且Collectors必须感知对象指向关系的改变。

image.png image.png

GC算法:

  • 安全性Safety:不能回收存活的对象是基本要求。
  • 吞吐率Throughput:1-GC时间/程序执行总时间(花在GC上的时间)。
  • 暂停时间Pause Time:stop the world(STW)(业务是否感知)。
  • 内存开销Space Overhead:GC元数据开销。

追踪垃圾回收(Tracing garbage collection)

  • 当指针指向关系不可达的对象时,对象会被回收。
  • 标记根对象:静态变量、全局变量、常量、线程栈等。
  • 标记:找到可达对象,求指针指向关系的传递闭包,从根对象出发找到所有可达对象。
  • 清理所有不可达对象:
    • 将存活对象复制到另外的内存空间(Coping GC) image.png
    • 将死亡对象的内存标记为“可分配”(Mark-sweep GC) image.png
    • 移动并整理存活对象(Mark-compact GC) image.png
  • 根据对象生命周期,使用不同的标记和清理策略。

image.png

分代GC(Generational GC)

  • 分代假说:most objects die young。
  • Intuition:很多对象在分配出来后就不再使用了。
  • 每个对象都有年龄:经过GC的次数。
  • 目的:针对年轻和老年的对象,制定不同的GC策略,降低整体内存管理的开销。
  • 不同年龄的对象处于heap的不同区域。
  • 年轻代(Young Generation):
    • 常规的对象分配
    • 由于存活对象很少,可以采用copying collection
  • 老年代(Old Generation):
    • 对象趋向于一直活着,反复复制开销较大
    • 可以采用mark-sweep collection

引用计数(Reference counting)

每个对象都有一个与之关联的引用数目,当且仅当引用数大于0时对象才能存活。

image.png 优点是内存管理的操作能被平摊到程序执行过程中,且内存管理不需要了解runtime的实现细节:C++智能指针(smart pointer)。

image.png

image.png image.png

缺点:

  • 维护引用计数的开销大,需通过原子操作保证对引用计数操作的原子性和可见性。
  • 无法回收环形数据结构(weak reference)。
  • 内存开销:每个对象都引入的额外内存空间存储引用数目。
  • 回收内存时依然可能引发暂停。

image.png

GO内存管理及优化

GO内存分配-分块

目标是为对象在heap上分配内存。

  • 提前将内存分块:
    • 调用系统用mmap()向OS申请一大块内存,例如4MB
    • 先将内存划分成大块,例如8KB每块,称作mspan
    • 再将大块继续划分成特定大小的小块,用于对象分配
    • noscan mspan:分配不包含指针的对象-GC不需要扫描
    • scan mspan:分配包含指针的对象-GC需要扫描
  • 对象分配:根据对象的大小,选择最合适的块返回

image.png

GO内存分配-缓存

  • TCMalloc:thread caching
  • 每个p包含一个mcache用户快速分配,用于为绑定于p上的g分配对象。
  • mcache管理一组mspan
  • 当mcache中的mspan分配完毕,向mcentral申请带有未分配块的mspan
  • 当mspan中没有分配的对象,mspan会被缓存在mcentral中,而不是立刻释放并归还给OS

image.png

GO内存管理优化

image.png

  • 对象分配是非常高频的操作:每秒分配GB级别的内存。
  • 小对象占比较高
  • GO内存分配比较耗时:
    • 分配路径长:g->m->p->mcache->mspan->memory block->return pointer
    • 线上pprof:对象分配的函数是最频繁调用的函数之一

优化方案:Balanced GC

  • 每个g都绑定一大块内存(1KB),称作goroutine allocation buffer(GAB)
  • GAB用于noscan类型的小对象分配:<128B
  • 使用三个指针维护GAB:base,end,top
  • Bump pointer(指针碰撞)风格对象分配
    • 无须和其他分配请求互斥
    • 分配动作简单高效

image.png

  • GAB对于GO内存管理来说是一个对象
  • 本质:将多个小对象的分配合并成一次大对象的分配
  • 问题:GAB的对象分配方式会导致内存被延迟释放
  • 方案:移动GAB中存活的对象:
    • 当GAB总大小超过一定阈值时,将GAB中存活的对象复制到另外分配的GAB中
    • 原先的GAB可以释放,避免内存泄露
    • 本质是用coping GC算法管理小对象(根据对象的生命周期,使用不同的标记的清理策略)

image.png

image.png

  • 效果明显:高峰期CPU usage降低4.6%,核心接口时延下降4.5%~7.7%。

image.png

总结

这章介绍了GO内存管理分两种模式,分别是分块和缓存;也介绍了GO对象分配的性能问题,包括分配路径过长和小对象居多;解决方式是Balanced GC:指针碰撞风格的对象分配、实现了copying GC、性能收益。