性能优化及自动内存管理 | 青训营

85 阅读4分钟

性能优化及自动内存管理

分析工具----pprof:采样原理、如何定位性能问题等

1、自动内存管理

  • 动态管理

    • 程序在运行时根据需求动态发分配的内存:malloc()
  • 自动内存管理(垃圾回收):由程序语言的运行时系统管理动态内存

    • 避免手动内存管理,专注于实现业务逻辑
    • 保证内存使用的正确性安全性:double-free problem , use-after-free problem
  • 三个任务

    • 为新对象分配空间
    • 找到存活对象
    • 回收死亡对象的内存空间
1.1自动内存管理-相关概念:
  • Mutator:业务线程,分配新对象,修改对象指向关系
  • Collector:GC线程,找到存活对象,回收死亡对象的内存空间
  • Serial GC:只有一个collector
  • Parallel GC:支持多个collectors同时回收的GC算法
  • Concurrent GC:mutator(s)和collector(s)可以同时执行

image-20230821140925337.png

Collectors必须感知对象指向关系的改变

image-20230821141410053.png

三色标记的方式:

白色表示未被标记,灰色表示对象已经被标记,但是引用对象尚未被标记,黑色表示对象和引用对象都被标记。通过不断的遍历和标记的过程,知道没有灰色对象剩下,即所有的对象都被标记为黑色,那么剩下的白色对象就可以被认为是无效的垃圾,可以进行回收。

问题:再标记过程中新创建的对象可能会被错误地视为垃圾。

混合写膨胀是指在并发垃圾收集(concurrent GC)过程中,由于写操作频繁导致堆内存的使用不断增加,而垃圾回收线程无法及时跟上,最终导致堆内存占用持续增长的现象。

  • 评价GC算法

    • 安全性:不能回收存活的对象 基本要求
    • 吞吐率:1 - GC实践/程序执行总时间 华仔GC上的实践
    • 暂停时间:stop the world(STW)业务是否感知,暂停时间越短越好
    • 内存开销 GC元数据开销,内存开销越小越好
1.2 追踪垃圾回收

image-20230821151813454.png

  • 对象被回收的条件:指针指向关系不可达的对象

  • 标记根对象

    • 静态变量、全局变量、常量、线程栈等
  • 标记:从根对象出发,找到可达对象

    • 求指针指向关系的传递闭包:从根对象出发,找到所有可达对象
  • 清理:所有不可达的对象(有以下几种方式)

  • 将存活对象复制到另外的内存空间(Copying GC)

image-20230821151536767.png

  • 将死亡对象的内存标记为“可分配”(Mark-sweep GC)

image-20230821151617172.png

  • 移动并整理存活对象(Mark-compart GC)

image-20230821151632281.png

  • 根据对象的生命周期,使用不同的标记和清理策略
1.3 GC(Genenrational GC)
  • 分代假说(Generational hypothesis):most objects die young
  • Intuition:很多对象在分配出来后很快就不再使用了
  • 每个对象都有年龄:经历过GC的次数
  • 目的:对年轻和老年的对象,制定不同GC策略,降低整体内存管理的开销
  • 不同年龄的对象除于heap的不同区域

image-20230821155635282.png

1.4 引用计数

image-20230821161255616.png

  • 每个对象都有一个与之关联的引用数目
  • 对象存活的条件:当且仅当引用数大于0
  • 优点

    • 内存管理的操作被平摊到程序执行过程中
    • 内存管理不需要了解runtime的实现细节:C++智能指针
  • 缺点:

    • 维护引用计数的开销较大:通过原子操作保证对引用计数操作的原子性可见性
    • 无法回收环形数据结构----可以通过weak reference回收
    • 内存开销:每个对象都引入的额外内存空间存储引用数目
    • 回收内存依然可能引发暂停

2、Go内存管理及优化

2.1 Go内存分配---分块

image-20230821161806389.png

2.1 Go内存分配---缓存

image-20230821162632698.png

2.2 Go内存管理优化

image-20230821162811952.png

2.3 Balanced GC
  • 每个g都绑定一大块内存(1KB),称作goroutine allocation buffer(GAB)(协程分配缓冲区)

  • GAB用于noscan类型的小对象分配:<128B

  • 使用三个指针维护 GAB:base,end,top

  • Bump pointer(指针碰撞)风格对象分配

    • 无须和其他分配请求互斥
    • 分配动作简单高效

image-20230821164055532.png

  • GAB对于一个内存管理来说是一个对象

  • 本质:将多个小对象的分配配合并成一次达对象的分配

  • 问题:GAB的对象分配方式胡导致内存被延迟释放

  • 方案:移动GAB中存活的对象

    • 党GAB总大小超过一定阈值时,将GAB中存活的对象复制到另外分配的GAB中

    • 原先的GAB可以释放,避免内存泄漏

    • 本质:用copying GC 的算法管理小对象

image-20230821191003360.png

2.3 Balanced GC --- 性能收益
  • 高峰期 CPU usage 降低4.6%,核心接口时延下降 4.5% - 7.7%

3、编译器和静态分析

3.1编译器的结构
  • 重要的系统软件

    • 识别符合语法和非法的程序
    • 生成正确且高效的代码
  • 分析部分(前端front end)

    • 词语分析,生成词素(lexeme)
    • 语法分析,生成语法树
    • 语义分析,收集类型信息,进行语义检查
    • 中间代码生成,生成intermediate representation(IR)
  • 综合部分(后端back end)

    • 代码优化,机器无关优化,生成优化后的IR
    • 代码生成,生成目标代码

image-20230821191721685.png

3.2 静态分析
  • 静态分析:不执行程序代码,推到程序的行为,分析程序的性质。
  • 控制流:程序执行的流程

image-20230821192716700.png

  • 数据流:数据在控制流上的传递

image-20230821192742835.png

  • 通过分析控制流和数据流,我们可以知道更多关于程序的性质
3.3 过程内分析和过程间分析

过程内分析:仅在函数内部进行分析

过程间分析:考虑函数调用时参数传递和返回值的数据流和控制流

4、Go编译器优化

4.1 函数内敛
  • 内敛:将被调用的函数体(callee)的副本替换到调用位置(caller)上,同时重写代码以反映参数的绑定

  • 优点

    • 消除函数调用开销,例如传递参数,保存寄存器等
    • 将过程间分析转换为过程内分析,帮助其他优化,例如逃逸分析
  • 函数内敛能过大程度影响性能?----使用micro-benchmark验证一下

image-20230821193925640.png

  • 缺点

    • 函数体变大,instruction cache(icache)不友好
    • 编译生成的Go镜像变大
4.2 逃逸分析
  • 逃逸分析:分析代码中指针的动态作用域:指针在何处可以被访问

  • 大致思路

    • 从对象分配出出发,沿着控制流,观察对象的数据流

    • 若发现指针p在当前作用域s:

      • 作为参数传递给其他函数
      • 传递给全局变量
      • 传递给其他的goroutine
      • 传递给已逃逸的指针指向的对象
    • 则指针p指向的对象逃逸出s,反之则没有逃逸处s

  • Beast mode:函数没脸扩展了函数边界,更多对象不逃逸

  • 优化:未逃逸的对象可以在栈上分配

    • 对象在栈上分配和回收很快:移动 sp
    • 减少在heap上的分配,降低GC负担