内存构成

首先看一下Presto的堆内存构成图：可以看到Presto堆内存主要有heap headroom和user memory, system memory构成

根据Trino代码中的MR记录，已经删除System memory，Trino堆内存只剩下heap headroom和user memory

Trino里面几个内存相关的参数：

参数	默认值	描述
`query.max-memory-per-node`	JVM max memory * 0.3	一个查询在一个 worker 节点上最大使用的内存
`query.max-memory`	20GB	一个查询在整个集群上最大使用的内存
`query.max-total-memory`	query.max-memory*2	一个查询在集群上最大使用的内存，包括可撤销的内存
`memory.heap-headroom-per-node`	JVM max memory * 0.3	Trino无法跟踪的内存分配，用于第三方依赖项、执行期间的本地/栈内存分配等

虽然配置了heap headroom的大小，但在代码里面却并没有对他的使用加以控制，因为Trino自己都无法跟踪他的内存分配，headroom的配置值只是在生成memory pool的时候起作用，保证memory pool的大小加上headroom小于 jvm的最大值。

内存池解析

Trino内存管理中最重要的一个类：ClusterMemoryManager

该类中包含上面提到的maxQueryMemory, maxQueryTotalMemory等参数，以及ClusterMemoryPool

ClusterMemoryPool中比较重要的几个属性：

参数	描述
blockedNodes	当前阻塞的节点个数，判断条件为该节点的可使用内存大小 + 可撤销的已预留内存大小 <= 0
totalDistributedBytes	集群内存池最大值
reservedDistributedBytes	集群内存池已预留值
reservedRevocableDistributedBytes	集群内存池可撤销的已预留值，该参数为溢出到磁盘的大小
freeDistributedBytes	集群内存池可用大小 = totalDistributedBytes - reservedDistributedBytes - reservedRevocableDistributedBytes;

ClusterMemoryPool中的属性是收集每个节点的NodeMemoryPool中的属性来进行汇总。

NodeMemoryPool的构造方法如下：

可以看出来节点的MemoryPool的最大值就是JVM的XMX减去heap headroom

所以可以简单的理解为JVM分为heap headroom 和 memory pool两个部分

内存池使用量统计

节点内存池中的reservedBytes是如何统计的呢，哪些内存使用会被统计到内存池里面？

Trino用MemoryTrackingContext 这个类来跟踪内存的使用情况

MemoryTrackingContext以树形层次结构组织，反映了opetator->driver->pipeline->task->query的层次结构. 对于一个Query, 所有的Operator占用的内存以树结构从下到上一路求和最终汇总计入到内存池中。通过这种机制，内存池可以统计每一个Operator使用的内存以及正在运行的Query所用的内存。（具体解释可阅读上图绿色文字部分）

在创建Operator时，每个Operator都有一个OperatorContext，OperatorContext中的MemoryTrackingContext来追踪内存。以TableScanOperator为例，从下图中可以看到，在读取Page文件后，将source使用的内存大小更新到MemoryTrackingContext中.