高性能优化 | 青训营笔记这是我参与「第五届青训营」伴学笔记创作活动的第4天。本节课程主要包括性能优化以及性能优化实

这是我参与「第五届青训营」伴学笔记创作活动的第4天。

本节课程主要包括性能优化以及性能优化实践两部分。

第一部分

性能优化：性能优化的概念：提升软件系统处理能力，减少不必要的消耗，充分发掘计算机算力。

性能优化的原因：

提升用户体验
实现资源的高效利用，降低成本，提高效率。

性能优化的类型：业务层优化：针对具体场景，进行具体分析，易获得较大收益。

语言运行时优化：能够解决更加通用的性能问题，很多时候是一种tradeoff

需要用数据驱动优化，利用pprof进行性能分析，依赖数据进行性能优化。

软件质量：软件质量是实际开发中十分重要的一点。

要在保证接口稳定的前提下改进具体实现。

测试用例要尽量覆盖尽可能多的场景。

要撰写相关文档，描述完成了哪些功能，未完成哪些功能，以及能够达到怎样的效果。

实现的优化代码要用开启选项和原先的路径隔离，保证优化未启用时的行为同以前一致

要保证优化的可观测，输出必要的日志。

自动内存管理

动态内存：程序运行时根据需求动态分配的内存：malloc()

自动内存管理的概念：由程序语言的运行时系统管理动态内存

目的：避免手动内存管理，专注于实现业务逻辑，以及保证内存使用的安全性与正确性

GC的主要任务：

为新对象分配空间
找到存活对象
回收死亡对象的内存空间

Go的内存管理及优化

Go内存管理

目的：为对象在heap上分配内存

提前将内存分块：

调用系统调用mmap()向OS申请一大块内存，例如大小为4MB

先将内存划分为大块，如8KB，称作mspan

再将大块继续划分为特定大小的小块，用于对象分配

noscan mspan：分配不包含指针的对象，GC不需要扫描这些对象

scan mspan：分配包含指针的对象，GC需要扫描

对象分配：根据对象的大小，选择最合适的块返回

内存缓存

Go的内存缓存机制借鉴了TCMalloc

每个p中包含一个mcache用于快速分配，用于为绑定于p上的g分配对象

mcache管理一组mspan

当mcache中的mspan分配完毕后，向mcentral申请带有未分配块的mspan

当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立刻释放并归还给os

Go内存管理优化

对象分配是一个非常高频的操作：每秒会分配GB级别的内存
小对象占比较高
Go内存分配比较耗时：分配路径很长g->m->p->mcache->mspan->memory block->return pointer
mollocgc函数是cpu运行占比较高的一个函数

优化方案 Balance GC

每个g都绑定一大块内存，称为goroutine allocation buffer

GAB用于noscan类型的小对象分配

使用三个指针维护GAB：base,end,top

Bump pointer风格对象分配

-无须和其他分配请求互斥

-分配动作简单高效

GAB对于Go的内存管理来说就是一个大对象

本质：将多个小对象的分配合并成一次大对象的分配

问题：将GAB的对象分配方式会导致内存被延迟释放

为解决上述问题，采用移动GAB中存活对象的方法，首先当GAB总大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中，原先的GAB可以释放，避免内存泄漏

本质上是使用copying Gc的算法管理小对象。

编译器与静态分析

编译器

编译器功能：识别符合语法以及非法的程序，生成正确且高效的代码

分析部分：源码->语法分析器->语义分析器->中间表示->综合部分

综合部分：代码优化->代码生成->目标代码

静态分析：

不执行代码，只推导程序行为，来分析程序的性质

控制流：程序执行的流程

数据流：数据在控制流上的传递

通过分析控制流和数据流，可以了解更多程序的性质，从而可以根据性质来优化代码

过程内分析与过程间分析

Intra-procedural analysis 仅在过程内部进行分析

inter-procedural analysis

考虑过程调用时参数传递和返回值的数据流和控制流

为什么过程间分析是个问题？

需要通过数据流分析得知i的具体类型，才能知道i.foo()调用的是哪个foo
根据i的具体类型，产生了新的控制流，A.foo()，分析继续
过程间分析需要同时分析控制流和数据流——联合求解，比较复杂

Go编译器优化

目的：使用户无需感知，重新编译就可以获得性能收益，且编译器优化更加通用

现状：采用的优化少，且编译时间短，无法进行比较复杂的代码优化分析和优化

编译优化的思路：

场景：面向后端长期执行的任务

思路，使用用编译时间换取更加高效的机器码

函数内联

将被调用函数体的副本替换到调用位置上，同时重写代码以反映参数的绑定

优点：

消除函数调用开销，例如传递参数，保存寄存器等
将过程间分析转化为过程内分析，帮助其他优化，例如逃逸分析

缺点：

函数体变大，对于instruction cache不友好
编译器生成的Go的镜像变大

函数内联在大多数情况下都是正向优化

内联策略：包括调用和被调函数规模进行内联

Beast Mode

Go函数内联受到很多限制

受限于语言特性，内联的策略非常保守

Beast Mode：调整了函数内联的策略，使更多函数被内联

降低了函数调用的开销

增加了其他优化的机会：逃逸分析

开销： Go镜像增加10% 同时增加了编译时间

逃逸分析

逃逸分析：分析代码中指针的动态作用域：指针在何处可以被访问

大致思路：

从对象分配处出发，沿着控制流，观察对象的数据流

若发现指针p在当前作用域S:

作为参数传递给其他参数
传递给全局变量
传递给其他协程
传递给已经逃逸的指针指向的对象

则指针p指向的对象逃逸出s，反之则没有逃逸出s

针对逃逸分析做的优化：

未逃逸的对象可以在栈上分配

对象在栈上分配和回收很快
减少在heap上的分配，降低了GC的负担

总结

在本节课中我主要学习了性能优化的相关概念，包括自动内存管理、Go内存管理以及编译器与静态分析；以及Balance GC优化对象分配，Beast mode通过优化函数内联提升代码性能。在本节课中有一些相关概念与知识我并不熟悉，笔者会继续在课后阅读相关资料提升对于性能优化的认识。