记一次线上Go服务内存占用异常问题排查

543 阅读2分钟

背景

最近线上有个服务内存异常增长, 默认服务启动实存应该是25M左右, 但是这个服务运行了一段时间实存达到了32G的量级, 并且还在缓慢增长, QA重启之后内存就恢复到了初始水准, 需要我们定位一下内存异常的问题进行解决
在这里插入图片描述

过程

整吧那就, pprof整起来, 在main 函数增加三行代码

import _ "net/http/pprof"

func main() {
	go func() {
		_ = http.ListenAndServe("0.0.0.0:6060", nil)
	}()
}

点进源码就看见它会注册5个接口, 用来查看维度数据
在这里插入图片描述

代码部署上去之后用top命令可以看到服务占用实存确实是在缓慢增加, 想单看这个服务的top可以用 top -p pid 指定进程id查看
在这里插入图片描述

里面 VIRT 是虚存, 即程序申请的内存; RES就是实存了, 即当前程序已经占用的内存

等服务跑一会就可以进网址http://127.0.0.1:6060/debug/pprof上查看服务占用情况了
在这里插入图片描述

也可以在命令行里面进行交互, 因为要查内存问题, 所以就直接看堆占用

go tool pprof http://127.0.0.1:6060/debug/pprof/heap

用top命令可以查看占用前十的函数

(pprof) top
Showing nodes accounting for 4109.08kB, 100% of 4109.08kB total
Showing top 10 nodes out of 91
      flat  flat%   sum%        cum   cum%
    1028kB 25.02% 25.02%     1028kB 25.02%  bufio.NewReaderSize (inline)
  518.02kB 12.61% 37.62%   518.02kB 12.61%  go.uber.org/zap/buffer.(*Buffer).AppendByte
  514.38kB 12.52% 50.14%   514.38kB 12.52%  encoding/json.typeFields
  512.44kB 12.47% 62.61%   512.44kB 12.47%  encoding/pem.Decode
  512.19kB 12.46% 75.08%   512.19kB 12.46%  runtime.malg
  512.05kB 12.46% 87.54%   512.05kB 12.46%  regexp.newOnePassMachine
  512.01kB 12.46%   100%   512.01kB 12.46%  github.com/jinzhu/gorm.(*Scope).getModelStruct
         0     0%   100%     1028kB 25.02%  bufio.NewReader
         0     0%   100%   512.44kB 12.47%  crypto/tls.(*Conn).Handshake
         0     0%   100%   512.44kB 12.47%  crypto/tls.(*Conn).clientHandshake

可以看到还都比较正常, 没有异常占用的函数; 这样的话就再看一眼网页版的堆占用情况
http://127.0.0.1:6060/debug/pprof/heap?debug=1

在这里插入图片描述

可以看到有很多关于 GetTransactionLevelList 这个方法的占用, 在项目里找到这个方法就很容易就定位到了一行异常代码

context.Set(_r, "key", val)

查看一下源代码
在这里插入图片描述

发现这是 gorilla 里面对当前请求存储特定键值的一个包, 关键是代码调用只有插入(Set)没有删除(Clear), 导致底层 data 和datat 一直在储存所有请求的数据及时间戳;
在这里插入图片描述

这就是这个服务内存异常的原因, 坑的是发现竟然连Get方法都没有调用, 相当于只存不用…emmm由于这块代码是已经离职的同事写的, 检查没用就直接干掉了, 顺便把所有的服务都自查了一下, 相对应的方法都清理了一遍;

改完代码重新部署服务, 果然内存稳定在了初始水准, 问题解决;

结束

这次问题解决是比较顺利的, pprof还有很多好用的可视化界面(需要安装 graphviz) 以及火焰图(需要安装原生pprof工具)供调用分析, 有兴趣的可以看下面两篇博客去实验玩一玩

参考链接

blog.csdn.net/wangdenghui…
www.jianshu.com/p/4e4ff6be6…