垃圾回收

785 阅读12分钟

解释

C和C++需要你手动的释放内存,Java不需要,因为JVM代替你做了这事。 JVM帮你自动的回收内存空间这个叫做垃圾回收, 英文叫Garbage-Collection,简称GC.

在理解GC之前,需要先了解JVM内存空间的知识。

如何定义垃圾?

首先,你要先解决一个最关键的问题?哪些对象是需要进行GC,JVM采用的可达性分析算法进行区分,这个算法的基本思路是通过一些被称为引用链(GC Roots)的对象作为起点,从这些节点开始向下搜索,搜索走过的路径被称为(Reference Chain),当一个对象到 GC Roots 没有任何引用链相连时(即从 GC Roots 节点到该节点不可达),则证明该对象是不可用的。

img

通过可达性算法,成功解决了引用计数所无法解决的问题-“循环依赖”,只要你无法与 GC Root 建立直接或间接的连接,系统就会判定你为可回收对象。那这样就引申出了另一个问题,哪些属于 GC Root。

GC Root

GC Root对象一般包含以下4种:

  1. 由System ClassLoader加载的类对象数据

  2. stack栈中的引用对象和对应的线程

    img

    线程挂了,对应的栈也就被清除,对应的GC Root也就不存在,相应的垃圾也就被回收了。

  3. 对象同步监视器

  4. 本地方法栈中 JNI(即一般说的 Native 方法)引用的对象。

明确了哪些是垃圾,下一步就可以对垃圾讨论如何对垃圾进行回收。

回收算法

如何高效的进行垃圾回收,就需要先来介绍一下常见的垃圾回收算法的思想。目前主要有标记---清除法(Mark---Sweep),复制算法(Copying),标记整理法(Mark--Compact)。针对不同生命周期的对象使用不同的算法才能高效的进行垃圾回收。

标记清除法

img

这个算法简单粗暴,将先把内存区域中的这些对象进行标记,哪些属于可回收标记出来,然后把这些垃圾拎出来清理掉。就像上图一样,清理掉的垃圾就变成未使用的内存区域,等待被再次使用。但是,这个缺点太明显了,容易产生内存碎片。

复制算法

img

复制算法倒是可以解决内存碎片的问题,它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。保证了内存的连续可用,内存分配时也就不用考虑内存碎片等复杂情况。

但是,这个算法问题也很明显,首先内存可用区域减少了一般。

标记整理算法

标记过程仍然与标记 --- 清除算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,再清理掉端边界以外的内存区域。

这个解决了内存碎片 也 解决了复制算法只能利用一般区域的的弊端,但是,缺点也很明显,它对内存变动更频繁,需要整理所有存活对象的引用地址,在效率上比复制算法要差很多。

img

回收区域

GC主要是回收堆内存中的对象和数组,因为有的对象朝生夕死,有的对象长长久久,所以为了最优化回收的算法,需要依据对象的生命周期进行分类。主要分为新生代,老年代。

存储新生代的区域分为两块,一块叫Eden(中文叫伊甸园)区,另外一个分为两块对等大小的Survivor区:from区 和 to区.。

img

Eden区

就如同它的名字一样,所有对象刚出生时都是出生在伊甸园。大多数情况下,对象会在新生代 Eden 区中进行分配,当 Eden 区没有足够空间进行分配时,虚拟机会发起一次 Minor GC。

通过 Minor GC 之后,Eden 会被清空,Eden 区中绝大部分对象会被回收,而那些无需回收的存活对象,将会进到 Survivor 的 From 区(若 From 区不够,则直接进入 Old 区)。

From区和To区

Survivor 区相当于是 Eden 区和 Old 区的一个缓冲,类似于我们交通灯中的黄灯。Survivor 又分为2个区,一个是 From 区,一个是 To 区。每次执行 Minor GC,会将 Eden 区和 From 存活的对象放到 Survivor 的 To 区(如果 To 区不够,则直接进入 Old 区)。

为啥需要两个呢?

我们先假设一下,Survivor 如果只有一个区域会怎样。Minor GC 执行后,Eden 区被清空了,存活的对象放到了 Survivor 区,而之前 Survivor 区中的对象,可能也有一些是需要被清除的。问题来了,这时候我们怎么清除它们?在这种场景下,我们只能标记清除,而我们知道标记清除最大的问题就是内存碎片,在新生代这种经常会消亡的区域,采用标记清除必然会让内存产生严重的碎片化。因为 Survivor 有2个区域,所以每次 Minor GC,会将之前 Eden 区和 From 区中的存活对象复制(说明使用了复制算法)>到 To 区域。第二次 Minor GC 时,From 与 To 职责兑换,这时候会将 Eden 区和 To 区中的存活对象再复制到 From 区域,以此反复。

这种机制最大的好处就是,整个过程中,永远有一个 Survivor space 是空的,另一个非空的 Survivor space 是无碎片的。那么,Survivor 为什么不分更多块呢?比方说分成三个、四个、五个?显然,如果 Survivor 区再细分下去,每一块的空间就会比较小,容易导致 Survivor 区满,两块 Survivor 区可能是经过权衡之后的最佳方案。

img

Old区

老年代占据着2/3的堆内存空间,只有在 Major GC 的时候才会进行清理,每次 GC 都会触发“Stop-The-World”。内存越大,STW 的时间也越长,所以内存也不仅仅是越大就越好。由于复制算法在对象存活率较高的老年代会进行很多次的复制操作,效率很低,所以老年代这里一般采用的是标记 --- 整理算法。

除了上述所说,在内存担保机制下,无法安置的对象会直接进到老年代,以下几种情况也会进入老年代。

大对象

大对象指需要大量连续内存空间的对象,这部分对象不管是不是“朝生夕死”,都会直接进到老年代。这样做主要是为了避免在 Eden 区及2个 Survivor 区之间发生大量的内存复制。当你的系统有非常多“朝生夕死”的大对象时,得注意了。

长期存活对象

虚拟机给每个对象定义了一个对象年龄(Age)计数器。正常情况下对象会不断的在 Survivor 的 From 区与 To 区之间移动,对象在 Survivor 区中没经历一次 Minor GC,年龄就增加1岁。当年龄增加到15岁时,这时候就会被转移到老年代。当然,这里的15,JVM 也支持进行特殊设置。

动态对象年龄

虚拟机并不重视要求对象年龄必须到15岁,才会放入老年区,如果 Survivor 空间中相同年龄所有对象大小的综合大于 Survivor 空间的一般,年龄大于等于该年龄的对象就可以直接进去老年区,无需等你“成年”。

这其实有点类似于负载均衡,轮询是负载均衡的一种,保证每台机器都分得同样的请求。看似很均衡,但每台机的硬件不通,健康状况不同,我们还可以基于每台机接受的请求数,或每台机的响应时间等,来调整我们的负载均衡算法。

垃圾回收器

老年代上选择的垃圾回收算法则取决于JVM采用什么垃圾回收器。通常的垃圾回收器有两种Parallel Scavenge(PS)Concurrent Mark Sweep(CMS).它们主要的不同体现在老年代的垃圾回收过程中。顾名思议,PS在回收的过程中使用了多线程,提高垃圾回收的效率,CMS则是回收器,应用程序挂起Stop the World时间较短,更接近并发、

Parallel Scavenge垃圾收集器

PS算法在执行的是Mark-Compact过程。

img

Concurrent Mark Sweep(CMS)垃圾收集器

CMS主要特点是并发,Stop the World时间短,从它的名字看出,它的主要思想是源于Mark--Sweep.它分了四个阶段。

img

Initial Mark阶段

这个初始化阶段做的事是,从GC root出发,标记根对象的第一层节点即停止,然后马上恢复应用运行。所以程序暂停的时间很短。

Concurrent Mark阶段

这个阶段中,刚才从initial Mark阶段标记的第一代子节点开始标记Tenured区域中所有可达对象。这个阶段中是不需要暂停程序。这也是它称为”Concurrent Mark”的原因。

Remark阶段

但Concurrent Mark和应用程序同时运行的问题是:应用程序一直在分配新对象。所以Concurrent Mark阶段它并不保证所有在Tenured区域的可达对象都被标记了。所以我们需要再次暂停应用程序,再从根节点开始补漏,确保所有的可达对象都被标记。因为老年代比较稳定,一般漏掉的不会太多,所以Remark阶段挂起时间也比较短。

ConcurrentSweep

最后,恢复应用程序的执行,同时CMS执行sweep,来清除所有非可达对象所占用的内存空间。

所以实际上CMS就是节省了从跟对象一代子对象往下搜索全部可达对象的时间。但CMS有个明显的缺点,就是他没有碎片整理的过程。对空间的利用不好,容易引发out of memory。

Garbage First(G1)垃圾收集器

AVA7发布了一个新的垃圾收集器 - Garbage First(G1)垃圾收集器。没有碎片整理的问题,同时又保留CMS垃圾收集器低暂停时间的优点.

G1垃圾收集器和CMS垃圾收集器有几点不同。den,Survivor和Tenured等内存区域不再是连续的了,而是变成了下图中一个个大小一样的Region - 每个region从1M到32M不等。

img

一个region有可能属于Eden,Survivor或者Tenured内存区域。一个region有可能属于Eden,Survivor或者Tenured内存区域。图中空白的表示未使用的内存空间。G1垃圾收集器还增加了一种新的内存区域,叫做Humongous内存区域,如图中的H块。这种内存区域主要用于存储大对象-即大小超过一个region大小的50%的对象.区隔变小的好处这里就体现出来了,对这种Humongous区就能特殊情况特殊照顾了,省了很多扫描的时间。

在G1垃圾收集器中,年轻代的垃圾回收过程跟PS垃圾收集器和CMS垃圾收集器差不多,,新对象的分配还是在Eden region中,当所有Eden region的大小超过某个值时,触发minor gc,回收Eden region和Survivor region上的非可达对象,,同时升级存活的可达对象到对应的Survivor region和Tenured region上。对象从Survivor region升级到Tenured region依然是取决于对象的年龄。

img

对于年老代上的垃圾收集,G1垃圾收集器也分为4个阶段,基本跟CMS垃圾收集器一样,但主要的改进有一下几项:

碎片整理:多了Clean up/Copy阶段: CMS最大的缺陷就是没有碎片整理。G1明显改进了,没有CMS中对应的Sweep阶段。相反它有一个Clean up/Copy阶段。现在G1里,老年代也像年轻代一样标记清扫之后要重新拷贝到新的region里去了。这样划分小区隔region的好处就是,不同代区的转化分配更自由合理了。

更高的并发性:同CMS垃圾收集器的Initial Mark阶段一样,G1也需要暂停应用程序的执行,也只标记根对象的第一层孩子节点中的可达对象。但是G1的垃圾收集器的Initial Mark阶段和Clean up/Copy阶段是跟minor gc一同发生的,在G1触发年轻代minor gc的时候聪明地一并将年老代上的Initial Mark给做了。

扫描,标记的同时回收:在Concurrent Mark阶段中,发现哪些Tenured region中对象的存活率很小或者基本没有对象存活,那么G1就会在这个阶段将其回收掉,这样小region设计的好处也出来了,,整个系统显得更加灵活。包括上文提到的Humongous内存区域,大对象单独占一个区,可以单独特殊处理,效率更高。

新Remark算法SATB:因为Initial Mark阶段的程序挂起现在在minor gc的时候顺便做掉了,G1在处理老年代的时候唯一还需要挂起的就是Remark补漏阶段。所以G1采用了一种叫SATB(snapshot-at-the-begining)的算法能够在Remark阶段更快的标记可达对象。

img

所以综合来讲,G1加上了CMS没有的碎片整理功能,同时程序挂起时间更短了,并发性更高了,而且存活对象的标记效率也更高了。目前G1正在全面替换掉CMS。

本文主要参考于 知乎回答知乎文章