Go性能优化及自动内存管理 | 青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第 5 天，今天学习的内容为Go

这是我参与「第五届青训营」伴学笔记创作活动的第 5 天，今天学习的内容为Go性能优化及自动内存管理。

性能优化是什么？

是提升软件系统能力，减少不必要的消耗，充分发掘计算机算力。

为什么要做性能优化？

用户体验：带来用户体验的提升

资源高效利用，降低成本，提高效率。

业务层优化：针对特定场景，具体问题，具体分析

语言运行时优化：解决更通用的性能问题

数据驱动：自动化性能分析工具——pprof

01自动内存管理

动态内存：程序在运行时根据需求动态分配的内存：malloc()

自动内存管理（垃圾回收）：由程序语言的运行时系统管理动态内存

Mutator:业务线程，分配新对象，修改对象指向关系。

Collector:GC线程，找到存活对象，回收死亡对象的内存空间。

Serial GC：只有一个collector

Parallel GC:只是多个collectors同时回收的GC算法。

Concurrent GC：mutators和collectors可以同时执行。

Collectors必须感知对象的指向关系的改变。

评价GC算法：

安全性（Safety):不能回收活的对象。（基本要求）
吞吐率（Throughput):1-GC时间/程序执行总时间（花在GC上的时间）
暂停时间（Pause time）：stop the world(STW) （业务是否感知）
内存开销（Space overhead) GC元数据开销

追踪垃圾回收（Tracing garbage collection)

对象被回收条件：指针指向关系不可达的对象

标记根对象

静态变量，全局变量，常量，线程栈等。

标记：找到可达对象

求指针指向关系的传递闭包：从根对象出发，找到所有可达对象

清理：所有不可达对象

将存活对象复制到另外的内存空间（Copying GC)
将死亡对象的内存标记为“可分配”（Mark-sweep GC)
移动并整理存活对象（Mark-compact GC）
根据对象的生存周期，使用不同的标记和清理策略。

年轻代（Young generation）

常规的对象分配
由于存活对象很少，可以采用copying collection
GC吞吐率很高

老年代（Old generation）

对象趋向于一直活着，反复赋值开销较大
可以采用mark-sweep collection

引用计数（Reference counting）

每个对象由一个与之关联的引用数目
对象存活的条件：当且仅当引用数大于0
优点：
- 内存管理的操作被平摊到程序执行过程中
- 内存管理不需要了解runtime的实现细节；C++智能指针（smart pointer)

缺点：

维护引用计数的开销较大：通过原子操作保证队引用计数操作的原子性和可见性。
无法回收环形数据结构——weak reference
内存开销：每个对象都引入的额外内存空间存储引用数目
回收内存时已然可能引发暂停

02Go内存管理及优化

Go内存分配

分块

目标为对象在heap上分配内存。

提前将内存分块

调用系统调用的mmap()向OS申请一大块内存。
先将内存划分为大块，称为 mspan
再将大块继续划分为特定大小的小块，用于对象分配。
noscan mspan:分配不包含指针的对象——GC不需要扫描
scan mspan:分配包含指针的对象——GC需要扫描

对象分配：根据对象的大小，选择最合适的块返回。

缓存

TCMalloc: thread caching
每个p包含一个mcache用于快速分配，用于为绑定于p上的g分配对象
mcache管理一组mspan
当mcache中的mspan分配完毕，向吗central申请带有未分配快的mspan
当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立刻释放并归还给OS.

内存管理优化

对象分配是非常高频的操作：每秒分配GB级别的内存。
小对象占比较高
Go内存分配比较耗时

优化方案:Balanced GC

每个g都绑定一块内存（1kb)，称作goroutine allocation buffer (GAB)
GAB用于noscan类型的小对象分配：< 128B
使用三个指针维护GAB:base,end,top
Bump pointer(指针碰撞) 风格对象分配
- 无需和其他分配请求互斥
- 分配动作简单高效

GAB对于Go内存管理来说是一个大对象

本质：将多个小对象的分配合并成一次大对象的分配

问题：GAB的对象分配方式会导致内存被延迟释放

03编译器和静态分析

重要的系统软件
分析部分（前端 front end）
综合部分（后端 back end）

静态分析：不执行程序代码，推导程序的行为，分析程序的性质。

控制流（Control flow）：程序执行的流程

数据流（Data flow）：数据在控制流上的传递

通过分析控制流和数据流，我们可以知道更多关于程序的性质（properties），根据这些性质优化代码。

过程内分析：仅在过程内部进行分析

过程间分析：考虑过程调用时参数传递和返回值的数据流和控制流

04Go编译器优化

编译器优化：用户无感知，重新编译即可；通用性优化

函数内联（Inlining）：

将被调用函数的函数体（callee）的副本替换到调用位置（caller），同时重写代码以反映参数的绑定。

优点：消除函数调用开销，例如传递参数，保存寄存器等；将过程间分析转化为过程内分析。

缺点：函数体变大，instruction cache不友好；编译生成的Go镜像变大。

函数内联在大多数情况下是正向优化。

Beast Mode

Go函数内敛受到的限制较多。

Beast mode调整函数内联的策略，是更多函数被内联。

降低了函数调用的开销
增加了其他优化的机会：逃逸分析

逃逸分析：分析代码中指针的动态作用域（指针在何处可以被访问）

Beast mode:函数内联拓展了函数边界，更多对象不逃逸。

优化：为逃逸的对象可以在栈上分配

对象在栈上分配和回收很快：移动sp
减少在heap上的分配，降低GC负担

day5总结

今天主要学习了Go语言内部自动内存管理以及应用于性能优化的主要方式，字节跳动内部的优化方法。程序在实现众多方法后性能和效率是十分重要的，Go语言作为后端开发语言有着自动内存管理以及优化方案GC等特性，在性能调优方面有着独特的优势。性能调优中着重讲解了Beast Mode，其具有降低开销，增加优化的功能，对优化CPU占用率有显著效果。