Go语言内存管理详解 | 青训营笔记

56 阅读8分钟

这是我参与「第五届青训营」伴学笔记创作活动的第 4 天

前言

本章,通过学习自动内存管理的知识概念,进一步理解Go内存管理优化、编译器和静态分析、Go编译器优化,从而学会对Go语言进行内存管理的进一步优化。

性能优化

  • 什么是性能优化?

    • 提升软件系统处理能力减少不必要的消耗,充分发掘计算机算力
  • 为什么要做性能优化?

    • 用户体验:带来用户体验的提升 —— 让刷抖音更丝滑,让双十一购物不再卡顿
    • 资源高效利用:降低成本,提高效率 —— 很小的优化乘以海量机器会是显著的性能提升和成本节约
  • 性能优化的层面

    • 业务层优化

      • 针对特定场景,具体问题,具体分析
      • 容易获得较大性能收益
    • 语言运行时优化

      • 解决更通用的性能问题
      • 考虑更多场景
      • Tradeoffs
    • 数据驱动

      • 自动化性能分析工具 —— pprof
      • 依靠数据而非猜测
      • 首先优化最大瓶颈
  • 软件质量
    • 软件质量至关重要
    • 在保证接口稳定的前提下改进具体实现

  • 测试用例:覆盖尽可能多的场景,方便回归

  • 通过清晰的文档告诉用户这一项优化做了什么没做什么能达到怎样的效果

  • 隔离,优化代码用选项和原先的路径隔离,保证优化未启用时的行为同以前一致

  • 可观测:必要的日志输出

自动内存管理

自动内存管理基本概念

动态内存:

  • 程序在运行时根据需求动态分配的内存:如c语言的malloc()

自动内存管理(垃圾回收):由程序语言的运行时系统管理动态内存。

  • 避免手动内存管理,专注于实现业务逻辑(勤奋的目的是为了懒)
  • 保证内存使用的正确性安全性,防止出现double-free problem & use-after-free problem

垃圾回收-相关概念:

  • Mutator:业务线程,分配新对象,修改对象指向关系。

  • Collector:GC线程,找到存活对象,回收死亡对象的内存空间。

image.png

  • Serial GC:只有一个collector。

image.png

  • Parallel GC:支持多个collectors同时回收的GC算法。

image.png

  • Concurrent GC:mutator(s) 和 collector(s) 可以同时执行

image.png

  • Collectors必须感知对象指向关系的改变!

image.png

评价GC算法:

  • 安全性(Safety):不能回收存活的对象  基本要求
  • 吞吐率(Throughput):1 - GC时间/程序执行总时间  花在GC上的时间
  • 暂停时间(Pause time):stop the word (STW)  业务是否感知
  • 内存开销(Space overhead): GC元数据开销

追踪垃圾回收

对象被回收的条件:指针指向关系不可达的对象

过程

  • 标记root对象:包括静态变量、全局变量、常量和线程栈等等;

image.png

  • 标记可达对象:求指针指向关系的传递闭包:从根对象出发,找到所有可达对象;

image.png

  • 清理所有不可达对象:

    • 将存活对象复制到另外的内存空间 (Copying GC)
    • 将死亡对象的内存标记为"可分配" (Mark-sweep GC)
    • 移动并整理存活对象 (Mark-compact GC)

image.png

  • 根据对象的生命周期,使用不同的标记和清理策略

分代GC(Generational GC)

  • 分代假说:most objects die young

  • Intuition:很多对象在分配出来后很快就不再使用了(英年早逝)

  • 每个对象都有年龄:经历过GC的次数

  • 目的:对年轻和老年的对象,指定不同的GC策略,降低整个提内存管理的开销

  • 不同年龄的对象处于heap的不同区域

  • 年轻代

    • 常规的内存分配
    • 由于存活对象很少,可以采用copying GC
    • GC吞吐率很高

copying GC:

image.png

- 老年代
-   **对象趋向于一直活着,反复复制开销较大**
-   可以采用mark-sweep GC

mark-sweep GC:

image.png

引用计数

每个对象都有一个与之关联的引用数目;

对象存活的条件:当且仅当引用数>0

这样做的优点是:

  • 内存管理的操作被平摊到程序执行过程中
  • 内存管理不需要了解runtime的实现细节:C++智能指针(smart pointer)

image.png

这样做的缺点也是有的:

  • 维护引用计数的开销较大:通过原子操作保证对引用计数的原子性可见性

  • 无法回收环形数据结构——weak reference

  • 内存开销:每个对象都引入的额外内存空间存储引用数目

  • 回收内存时依然可能引发暂停

image.png

Go内存管理及优化

Go内存分配-分块

  • 目标:为对象在heap上分配内存。
  • 提前将内存分块。
    • 调用系统调用mmap()向OS申请一大块内存,例如4MB。
    • 先将内存划分成大块,例如8KB,称作mspan
    • 再继续将大块划分成特定大小的小块,用于按需对象的分配。
    • noscan mspan:分配不包含指针的对象——GC不需要扫描。
    • scan mspan:分配包含指针的对象——GC需要扫描。
  • 对象分配:根据对象的大小,选择最合适的块。

image.png

## Go内存分配-缓存 - TCMalloc:`thread caching`。 - 每个`p`包含一个`mcache`用于快速分配,用于为绑定于`p`上的`g`分配对象。 - `mcache`管理一组`mspan`。 - 当`mcache`中的`mspan`分配完毕,向`mcentral`申请带有未分配块的mspan。 - 当`mspan`中没有分配的对象,`mspan`会被缓存在`mcentral`中,而不是立刻释放并归还给`OS`。

看下图,

image.png

编译器和静态分析

编译器的结构

  • 重要的系统软件

    • 识别符合语法和非法的程序
    • 生成正确且高效的代码
  • 分析部分:(前端 front end)

    • 词法分析:生成词素(lexeme)
    • 语法分析:生成语法树
    • 语义分析:收集类型信息,进行语义检查
    • 中间代码生成:生成intermediate representation(IR)
  • 综合部分:(后端 back end)

    • 代码优化:机器无关代码,生成优化后的IR
    • 代码生成:生成目标代码

image.png

## 静态分析 - 静态分析:**不执行代码**,推导程序的行为,分析程序的性质。 - 控制流:程序的执行流程。 - 数据流:数据在控制流上的传递。

image.png

上图的程序转换成控制流图 (control-flow graph)

过程内分析和过程间分析

  • 过程内分析(Intra-procedural analysis): 在函数内部进行分析。

  • 过程间分析(Inter-procedural analysis):考虑过程调用时参数传递和返回值数的据流和控制流。

    过程间分析问题解决方案:

  • 需要通过数据流分析得知i的具体类型,才能知道i.foo()调用的是哪个foo()。

  • 根据i的具体类型,产生了新的控制流,A.foo(),分析继续

  • 过程间分析需要同时分析控制流和数据流——联合求解,比较复杂。

image.png

Go编辑器优化

编译器优化目的:

  • 用户无感知,重新编译即可获得性能收益。
  • 通用性优化。

现状:

  • 采用的优化少。
  • 编译时间较短,没有进行较复杂的代码分析和优化。

编译优化思路:

  • 场景:面向后端长期执行任务
  • Tradeoff: 用编译时间换取更高效的机器码。

Beast mode:

  • 函数内联
  • 逃逸分析
  • 默认栈大小调整
  • 边界检查消除
  • 循环展开
  • 。。。。

函数内联(inlining)

  • 定义:将被调用函数的函数体(callee)的副本替换到调用位置(caller)上,同时重写代码以反映参数的绑定

  • 优点

    • **消除函数调用开销,例如传递参数、保存寄存器等。

    • 将过程间分析的问题转换为过程内分析,帮助其他分析,例如逃逸分析

    • 那么函数内联能多大程度影响性能?-用以下例子使用benchmark基准测试一下

    func BenchmarkInline(b *testing.B) {
        x := genInteger()
        y := genInteger()
        for i := 0; i < n.N; i++ {
            addInline(x, y)
        }
    }
    
    func addInline(a, b int) int {
        return a + b
    }
    
    func BenchmarkInlineDisabled(b *testing.B) {
            x := genInteger()
        y := genInteger()
        for i := 0; i < n.N; i++ {
            addNoInline(x, y)
        }
    }
    
    // go:noinline
    func addNoInline(a, b int) int {
        return a + b
    
    
    • 运行结果:

image.png

  • 缺点

    • 函数体变大
    • 编译生成的 Go 镜像文件变大
  • 函数内联在大多数情况下是正向优化,即多内联,会提升性能

  • 内联策略

    • 调用和被调用函数的规模

Beas Mode

  • Go函数内联受到的限制较多

    • 语言特性,例如interface,defer等,限制了函数内联。
    • 内联策略非常保守。
  • Beast mode:调整函数内联的策略,使更多函数被内联

    • 降低函数调用的开销。
    • 增加了其他优化机会:逃逸分析
  • 开销:

    • Go镜像增加约10%。
    • 编译时间增加。

逃逸分析

  • 定义:分析代码中指针的动态作用域,即指针在何处可以被访问

  • 大致思路

    • 从对象分配处出发,沿着控制流,观察数据流。
    • 若发现指针 p 在当前作用域 s:
      • 作为参数传递给其他函数;
      • 传递给全局变量;
      • 传递给其他的 goroutine;
      • 传递给已逃逸的指针指向的对象;
      • 则指针 p 逃逸出 s,反之则没有逃逸出 s.
  • 优化:未逃逸出当前函数的指针指向的对象可以在栈上分配

    • 对象在栈上分配和回收很快:移动 sp 即可完成内存的分配和回收;
    • 减少在堆上分配对象,降低 GC 负担。

引用

  • 掘金字节内部课:Go语言内存管理及编译器优化思路