高性能Go语言发行版优化与落地实践|青训营笔记这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇笔记。性能优化层

这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇笔记。

前言知识

性能优化层面
- 业务层优化
  - 针对特定场景，具体问题，具体分析
  - 容易获得较大性能收益
- 语言运行时优化
  - 解决更通用的性能问题
  - 考虑更多场景
  - Tradeoffs
- 数据驱动
  - 自动化性能分析工具---pprof
  - 依靠数据而非猜测
  - 首先优化最大瓶颈
自动内存管理
- 自动内存管理的基本概念
  - 动态内存
    - 程序在运行时根据需求动态分布内存：malloc()
  - 自动内存管理(垃圾回收)：由程序语言运行时系统管理动态内存
    - 避免手动内存管理，专注于实现业务逻辑
    - 保证内存使用的正确性和安全性：double-free problem(释放两个内存), use-after-free problem(释放之后又使用)
  - 三个任务
    - 为新对象分配空间
    - 找到存活对象
    - 回收死亡对象的内存
  - 概念
    - Mutator：业务线程，分配新对象，修改对象指向关系
    - Collector：GC线程，找到存活对象，回收死亡对象的内存空间
    - Serial GC：只有一个collector
    - Parallel GC：支持多个collectors同事回收的GC算法
    - Concurrent GC：mutator(s)和collector(s)可以同时执行
      - Collectors必须感知对象指向关系的改变。
    - 评价GC算法(推荐数目：THE GARBAGE COLLECTION HANDBOOK)
      - 安全性(Safety)：不能回收存活的对象---基本要求
      - 吞吐率(Throughput)：1-GC时间/程序执行总时间---花在GC上的时间
      - 暂停时间(Pause time)：stop the world(STW)---越短越好，业务是否感知
      - 内存开销(Space overhead)---GC元数据开销
    - 追踪垃圾回收(Tracing garbage collection)
      - 对象被回收的条件：指针指向关系不可达对象
      - 过程
        
        标记根对象(GC roots)
        
        静态变量、全局变量、常量、线程栈等
        
        标记：找到可达对象
        
        求指针指向关系的传递闭包：从根对象出发，找到所有可达对象
        
        清理：所有不可达对象
        
        将存活对象复制到另外的内存空间(Copying GC)
        
        将死亡对象的内存标记为"可分配"(Mark-sweep GC)
        
        移动并整理存活对象(Mark-compact GC)---原地去做整理
        
        根据对象的生命周期，使用不同的标记和清理策略
    - 引用计数(Reference counting)
      - 每个对象都有一个与之关联的引用数目
      - 对象存活的条件：当且仅当引用数大于0
      - 优点
        
        内存管理的操作被平摊到程序中
        
        内存管理不需要了解runtime的实现细节：C++智能指针(smart pointer)
      - 缺点
        
        维护引用计数的开销较大：通过原子操作保证对引用计数操作的原子性和可见性
        
        无法回收环形数据结构---week reference
        
        内存开销：每个对象都引入的额外内存空间存储引用数目
        
        收回内存时依然可能引发暂停
Go内存管理及优化
- Go内存管理的性能问题以及优化思路
  - Go内存分配-分块
    - 目标：为对象在heap()上分配内存
    - 提前将内存分块
      - 调用系统调用mmap()向OS申请一大块内存，例如4MB
      - 先将内存划分成大块，例如8KB，称作mspan
      - 再将大块继续划分成特定大小的小块，用于对象分配
      - noscan mspan：分配不包含指针的对象-GC不需要扫描
      - scan mspan：分配包含指针的对象-GC需要扫描
    - 对象分配：根据对象的大小，选择最合适的块返回
  - Go内存管理-缓存
  - Go对象分配的性能问题
  - Balanced GC
编译器和静态分析
- 编译原理和机器无关优化
  - 编译器的结构
    - 重要的系统软件
      - 识别符合语法和非法的程序
      - 生成正确且高效的代码
    - 分析部分(前端front end)
      - 词法分析，生成词素(lexeme)
      - 语法分析，生成语法树
      - 语义分析，手机类型信息，进行语义检查
      - 中间代码生成，生成intermediate repredentation(IR)
    - 综合部分(后端back end)
      - 代码优化，机器无关优化，生成优化后的IR
      - 代码生成，生成目标代码
  - 静态分析
    - 静态分析：不执行程序代码，推到程序的行为，分析程序的性质
    - 控制流(Control flow)：程序执行的流程
    - 数据流(Data flow)：数据在控制流上传递
    - 通过分析控制流和数据流，我们可以指导更多关于程序的性质(properties)
    - 根据这些性质优化代码
  - 过程内分析和过程间分析
    - 过程内分析(Intra-procedural analysis)
      - 仅在函数内部进行分析
    - 过程间分析(Inter-procedural analysis)
      - 考虑函数调用时参数传递和返回值的数据流和控制流
Go编译器优化
- 编译器有优化思路
  - 现状
    - 采用的优化少
    - 编译时间短，没有进行较复杂的代码分析和优化
  - 编译优化的思路
    - 场景：面向后端长期执行的任务
    - Thadeoff：用编译时间换取更高效的机器码
  - Beast mode
    - 函数内联(Inlinling)
      - 内联：将被调用函数的函数体(callee)的副本替换到调用位置(caller)上，同时重写代码以反映参数的绑定
      - 优点
        
        消除函数调用的开销，例如传递参数，保存寄存器等
        
        将过程间分析转换为过程内分析，帮助其他优化，例如逃逸分析
      - 缺点
        
        函数体变大，instruction cache(icache)不友好
        
        编译生成的Go镜像变大
      - 函数内联在大多数情况下是正向优化
      - 内联策略
    - 逃逸分析
      - 逃逸分析：分析代码中指针的动态作用域：指针在何处可以被访问
      - 大致思路
        
        从对象分配处出发，沿着控制流，观察对象的数据流
        
        若发现指针p在当前作用域s：
        
        作为参数传递给其他函数
        
        传递给全局变量
        
        传递给其他的goroutine
        
        传递给已逃逸的指针指向的对象
        
        则指针p指向的对象逃逸出s，反之则没有逃逸出s
      - Beast mode：函数内联拓展了函数边界，更多对象不逃逸
      - 优化：未逃逸的对象可以在线上分配
        
        对象在线上分配和回收很快，移动sp
        
        减少在heap上的分配，降低GC负担
    - 默认栈大小调整
    - 边界检查消除
    - 循环展开
\

高性能Go语言发行版优化与落地实践|青训营笔记

前言知识

性能优化层面

自动内存管理

自动内存管理的基本概念

动态内存

自动内存管理(垃圾回收)：由程序语言运行时系统管理动态内存

三个任务

概念

评价GC算法(推荐数目：THE GARBAGE COLLECTION HANDBOOK)

追踪垃圾回收(Tracing garbage collection)

引用计数(Reference counting)

Go内存管理及优化

Go内存管理的性能问题以及优化思路

Go内存分配-分块

Go内存管理-缓存

编译器和静态分析

编译原理和机器无关优化

编译器的结构

静态分析

过程内分析和过程间分析

Go编译器优化

编译器有优化思路

现状

编译优化的思路