这是我参与「第五届青训营」伴学笔记创作活动的第 3 天

一、本堂课重点内容

介绍编码规范，帮助大家写出高质量程序
介绍 Go 语言的性能优化建议，分析对比不同方式对性能的影响和背后的原理
讲解常用性能分析工具 pprof 的使用和工作原理，熟悉排查程序性能问题的基本流程
分析性能调优实际案例，介绍实际性能调优时的工作内容

二、详细知识点介绍

01. 高质量编程

1.1 简介

[!question] 什么是高质量？高质量编程需要满足哪些条件？

正确性： 是否考虑各种边界条件，错误的调用是否能够处理 可靠性： 异常情况或者错误的处理策略是否明确，依赖的服务出现异常是否能够处理 简洁： 逻辑是否简单，后续调整功能或新增功能是否能够快速支持 清晰： 其他人在阅读理解代码的时候是否能清楚明白，重构或者修改功能是否不会担心出现无法预料的问题

[!question] 高质量编程的编程原则有哪些？

简单性 消除”多余的复杂性”，以简单清晰的逻辑编写代码。在实际工程项目中，复杂的程序逻辑会让人害怕重构和优化，因为无法明确预知调整造成的影响范围。难以理解的逻辑，排查问题时也难以定位，不知道如何修复。
可读性 可读性很重要，因为代码是写给人看的，而不是机器。在项目不断迭代的过程中，大部分工作是对已有功能的完善或扩展，很少会完全下线某个功能，对应的功能代码实际会生存很长时间。
生产力 编程在当前更多是团队合作，因此团队整体的工作效率是非常重要的一方面。为了降低新成员上手项目代码的成本，Go语言甚至通过工具强制统一所有代码格式。编码在整个项目开发链路中的一个节点，遵循规范，避免常见缺陷的代码能够降低后续联调、测试、验证、上线等各个节点的出现问题的概率，就算出现问题也能快速排查定位。

1.2 编码规范

如何编写高质量的Go代码？

代码格式
注释
命名规范
控制流程
错误和异常处理

1.2.1 代码格式

首先是推荐使用gofmt自动格式化代码，保证所有的Go代码与官方推荐格式保持一致而且可以很方便的进行配置，像Goland内置了相关功能，直接开启即可在保存文件的时候自动格式化。

[[202301171307-Go代码格式化之gofmt的使用]]

另外可以考虑goimports，会对依赖包进行管理，自动增删依赖的包引用，按字母序排序分类，具体可以根据团队实际情况配置使用。

1.2.2 注释

注释应该做的：

注释应该解释代码作用
注释应该解释代码如何做的
注释应该解释代码实现的原因
注释应该解释代码什么情况会出错

规范：

公共符号始终要注释
包中声明的每个公共的符号
变量、常量、函数以及结构都需要添加注释
任何既不明显也不简短的公共功能必须予以注释
无论长度或复杂程度如何，对库中的任何函数都必须进行注释

1.2.3 命名规范

变量

简洁胜于冗长
缩略词全大写，但当其位于变量开头且不需要导出时，使用全小写
- 例如使用ServeHTTP而不是ServeHttp
- 使用XMLHTTPRequest或者xmlHTTPRequest
变量距离其被使用的地方越远，则需要携带越多的上下文信息
全局变量在其名字中需要更多的上下文信息，使得在不同地方可以轻易辨认出其含义

函数

函数名不携带包名的上下文信息，因为包名和函数名总是成对出现的
函数名尽量简短
当名为foo的包某个函数返回类型Foo时，可以省略类型信息而不导致歧义
当名为foo的包某个函数返回类型T时(T 并不是Foo)，可以在函数名中加入类型信息

package

只由小写字母组成。不包含大写字母和下划线等字符
简短并包含一定的上下文信息。例如schema、task 等
不要与标准库同名。例如不要使用sync或者strings

以下规则尽量满足，以标准库包名为例：

不使用常用变量名作为包名。例如使用bufio而不是buf
使用单数而不是复数。例如使用encoding而不是encodings
谨慎地使用缩写。例如使用fmt在不破坏上下文的情况下比format更加简短

1.2.4 控制流程

避免嵌套
尽量保持正常代码路径为最小缩进

1.2.5 错误和异常处理

简单错误

简单的错误指的是仅出现1次的错误，且在其他地方不需要捕获该错误
优先使用errors. New来创建匿名变量来直接表示简单错误
如果有格式化的需求，使用fmt Errorf

错误的Wrap和Unwrap

错误的Wrap实际上是提供了一个error嵌套另一个error的能力，从而生成一个error的跟踪链
在fmt.Errorf中使用: %w关键字来将一个错误关联至错误链中

错误判定

判定一个错误是否为特定错误，使用errors.Is 不同于使用 == ，使用该方法可以判定错误链上的所有错误是否含有特定的错误
在错误链上获取特定种类的错误，使用errors.As

panic

它的出现表示程序无法正常工作

不建议在业务代码中使用panic
调用函数不包含recover会造成程序崩溃
若问题可以被屏蔽或解决，建议使用error代替panic
当程序启动阶段发生不可逆转的错误时，可以在init或main函数中使用panic

recover

有painc，自然就会提到recover，因为我们并不能控制所有的代码，避免不了引入其他库，如果是引入库的bug导致panic，影响到我自身的逻辑该如何处理?

recover 只能在被defer的函数中使用嵌套无法生效
只在当前goroutine 生效
defer 的语句是后进先出

小结：

error尽可能提供简明的上下文信息链，方便定位问题
panic用于真正异常的情况
recover生效范围，在当前goroutine的被defer的函数中生效

1.3 性能优化建议

性能优化的前提是满足正确可靠、简洁清晰等质量因素
性能优化是综合评估，有时候时间效率和空间效率可能对立
针对Go语言特性，介绍Go相关的性能优化建议

1.3.1 Benchmark

Go自带的性能评估工具

// -8：八核 次数（b.N） 每次执行花费ns 每次执行申请内存大小 每次执行申请内存次数
BenchmarkFib10-8 1855870 602.5 ns/op 0 B/op 0 allocs/op

1.3.2 Slice

预分配内存

尽可能在使用make()初始化切片时提供容量信息

第一条建议就是预分配，尽可能在使用make()初始化切片时提供容量信息，特别是在追加切片时。

首先我们看看slice的结构：切片本质是一个数组片段的描述，包括数组指针片段的长度片段的容量(不改变内存分配情况下的最大长度)

type silce struct{
	array unsafe.Pointer
	len int
	cap int
}

切片操作并不复制切片指向的元素，创建一个新的切片会复用原来切片的底层数组。

以切片的append为例，append时有两种场景: 当append之后的长度小于等于cap，将会直接利用原底层数组剩余的空间。当append后的长度大于cap时，则会分配一块更大的区域来容纳新的底层数组。因此，为了避免内存发生拷贝，如果能够知道最终的切片的大小，预先设置cap的值能够避免额外的内存分配，获得更好的性能。

另一个陷阱：大内存未释放因此很可能出现这么一种情况，原切片由大量的元素构成，但是我们在原切片的基础上切片，虽然只使用了很小一段，但底层数组在内存中仍然占据了大量空间，得不到释放。

可使用copy替代re-slice

func GetLastBySlice(origin []int) []int{
	return origin[len(orgin)-2:]
}

func GetLastCope(origin []int) []int{
	result := make([]int, 2)
	copy(result, origin[len(origin)-2:])
	return result
}

func testGetLast(t *testing.T, f func([]int) []int){
	result := make([][]int, 0)
	for k := 0; k < 100; k++{
		origin := generateWithCap(128*1024)
		result = append(result, f(origin))
	}
	printNem(t)
	_= result
}

两部分代码使用了不同的逻辑取slice的最后两位数创建新数组，同时统计输出了内存占用信息： lastBySlice 耗费了100.14 MB内存，也就是说，申请的100个1 MB大小的内存没有被回收。因为切片虽然只使用了最后2个元素，但是因为与原来1M的切片引用了相同的底层数组，底层数组得不到释放，因此，最终100 MB的内存始终得不到释放。而lastByCopy仅消耗了3.14MB的内存。这是因为，通过copy,指向了一个新的底层数组，当origin不再被引用后，内存会被垃圾回收。

1.3.3 Map

不断向map中添加元素的操作会触发map的扩容
提前分配好空间可以减少内存拷贝和Rehash的消耗
建议根据实际需求提前预估好需要的空间

1.3.4 字符串处理

使用strings.Builder
使用+拼接性能最差，strings Builder, bytes Buffer相近，strings Buffer更快

原因：

字符串在Go语言中是不可变类型，占用内存大小是固定的
使用+每次都会重新分配内存
strings. Builder, bytes. Buffer底层都是[]byte数组
内存扩容策略，不需要每次拼接重新分配内存

但是为什么stringbuilder会比bytebuffer更快一些？

bytes. Buffer转化为字符串时重新申请了一块空间
strings. Builder直接将底层的]byte转换成了字符串类型返回

进一步性能优化的话，就可以使用builder.Grow方法，通过预分配提升性能。

1.3.5 空结构体

使用空结构体节省内存

空结构体struct{}实例不占据任何的内存空间
可作为各种场景下的占位符使用
- 节省资源
- 空结构体本身具备很强的语义，即这里不需要任何值，仅作为占位符

1.3.6 atomic 包

锁的实现是通过操作系统来实现，属于系统调用
atomic操作是通过硬件实现，效率比锁高
sync.Mutex应该用来保护一段逻辑，不仅仅用于保护一一个变量
对于非数值操作，可以使用atomic.Value,能承载一个interface{}

02. 性能调优实战

2.1 简介

性能调优原则：

要依靠数据不是猜测
要定位最大瓶颈而不是细枝末节
不要过早优化
不要过度优化

2.2 性能分析工具 pprof

希望知道应用在什么地方耗费了多少CPU、Memory pprof是用于可视化和分析性能分析数据的工具

分析部分 - 有两种方式：网页/可视化终端
具体的工具 - 可以在runtime/pprof中找到源码，同时Golang的http标准库中也对pprof做了些封装，能让你在http服务中直接使用它
采样部分 - 它可以采样程序运行时的CPU、堆内存、goroutine、锁竞争、阻塞调用和系统线程的使用数据
展示 - 用户可以通过列表、调用图、火焰图、源码、反汇编等视图去展示采集到的性能指标。方便分析

在浏览器中打开 http://localhost:6060/debug/pprof/ ，可以看到采样数据和各种指标。

实战pprof

1. CPU问题

pprof的采样结果是将一段时间内的信息汇总输出到文件中，所以首先需要拿到这个profile文件。你可以直接使用暴露的接口链接下载文件后使用，也可以直接用pprofI具连接这个接口下载需要的数据。

这里我们使用go tool pprof +采样链接来启动采样。链接中就是刚刚「炸弹」程序暴露出来的接口，链接结尾的profile代表采样的对象是CPU使用。如果你在浏览器里直接打开这个链接，会启动个60秒的采样，并在结束后下载文件。这里我们加上seconds= 10的参数，让它采样十秒。

稍等片刻，我们需要的采样数据已经记录和下载完成，并展示出pprof终端：


PS E:\5\go-pprof-practice> go tool pprof "http://localhost:6060/debug/pprof/profile?seconds=10"
Fetching profile over HTTP from http://localhost:6060/debug/pprof/profile?seconds=10
Saved profile in C:\Users\WKX\pprof\pprof.samples.cpu.001.pb.gz
Type: cpu
Time: Jan 17, 2023 at 4:16pm (CST)
Duration: 10.17s, Total samples = 2.55s (25.06%)
Entering interactive mode (type "help" for commands, "o" for options)
(pprof) top

首先，输入top，查看CPU占用最高的函数这五列从左到右分别是: Flat:当前函数的占用 Flat%: Flat占总量的比例 Sum%:_上面所有行的Flat%总和 Cum (Cumulative) :当前函数加上其调用函数的总占用 Cum%: Cum占总量的比例

[!question] 那么，在什么情况下Flat=cum?在什么情况下Flat=0?

Cum-Flat得到的是函数中调用其他函数所消耗的资源，所以在函数中没有对其他函数进行调用时，Cum-Flat=0，也就是Flat=cum。相应地，函数中除了调用另外的函数，没有其他逻辑时，Flat=0。

其次，输入list，根据指定的正则表达式查找代码行。

![[Pasted image 20230117165157.png]]

有的时候这样不是很直观，我们可以使用web命令，生成一个图，让调用关系可视化。

如果web后报错 Failed to execute dot. Is Graphviz installed? Error: exec: "dot": executable file not found in %PATH%

是没有安装gvedit导致的

进入gvedit官网graphviz.gitlab.io/_pages/Down… 下载稳定版

按照提示进行安装即可。

2. Heap堆内存

在刚刚排查CPU的过程中，我们使用的是pprof终端，这里我们介绍另-种展示方式。通过http=:8080参数，可以开启pprof自带的Web UI，性能指标会以网页的形式呈现。再次启动pprof工具，注意这时的链接结尾是heap等待采样完成后，浏览器会被自动打开，展示出熟悉的web视图，同时展示的资源使用从「CPU时间」变为了「内存占用」。可以明显看到，这里出问题的是*Mouse.Steal()函数，它占用了1GB内存。在页面顶端的View菜单中，我们可以切换不同的视图。

在SAMPLE中，还有一些需要注意的点：

alloc_ objects: 程序累计申请的对象数
inuse objects: 程序当前持有的对象数
alloc space:程序累计申请的内存大小
inuse_ space: 程序当前占用的内存大小

3. goroutine - 协程

用火焰图进行分析

由上到下表示调用顺序
每一块代表一个函数，越长代表占用CPU的时间更长
火焰图是动态的，支持点击块进行分析

4. mutex - 锁

修改链接后缀为mutex，在Source视图下可以定位。

5. block - 阻塞

修改链接后缀为block，在Source视图下可以定位。

我们只定位到一个block的问题。但刚刚的计数页面上有两个阻塞操作，那么另一个为什么没有展示呢?

可以关注一下pprof Top视图中表格之外的部分，有4个节点因为cumulative小于1.41秒被drop掉了，这就是另一个阻塞操作的节点，但他因为总用时小于总时长的干分之5，所以被省略掉了。这样的过滤策略能够更加有效地突出问题所在，而省略相对没有问题的信息。

如果不作任何过滤全部展示的话，对于一个复杂的程序可能内容就会非常庞大了，不利于我们的问题定位。

三、引用参考

青训营：高质量编程简介及编码规范
青训营：性能优化指南
青训营：性能优化分析工具

高质量编程及性能调优实战｜ 青训营笔记