开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 7 天,点击查看活动详情
引言
对于 Java 程序员来说,在虚拟机自动内存管理机制的帮助下,不需要像 C 语言那样去写对内存的操作,不容易出现内存泄漏和内存溢出的问题。但是,也正是因为 Java 程序把控制内存的权利交给了 Java 虚拟机,不需要 Java 程序员去花费额外的心思考虑,一旦出现内存泄漏和内存溢出方面的问题,如果不了解虚拟机对内存的管理,那将对排查错误修正问题造成非常大的阻碍。
所以,今天来回顾一下Java的内存区域。
自动内存管理
自动内存管理,通俗易懂的解释就是,虚拟机自动给对象分配内存以及自动回收分配给对象的内存。不需要程序员插手这件事,虚拟机会自动管理,不同的虚拟机会有不同的实现方式。
运行时数据区域
Java 虚拟机在执行 Java 程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而一直存在,有些区域则是依赖用户线程的启动和结束而建立和销毁。
根据《Java虚拟机规范》的规定,Java 虚拟机所管理的内存将会包括以下几个运行时数据区域。
接下来我们将详细讲解每一块区域。
程序计数器
程序计数器(Program Counter Register) 是一块较小的内存空间,它可以看作是当前线程所执行的字节码的符号指示器。在 Java 虚拟机的概念模型(具体的 Java 虚拟机不一定完全按照概念模型的定义来设计,可能会通过一些更高效率的等价方式去实现它)里,字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令(字节码指令的地址),它是程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。
为什么要有程序计数器呢?
Java 虚拟机的多线程是通过线程轮流切换、分配处理器执行时间的方式实现的,在任何一个确定的时刻,一个处理器(多核处理器来说的话时一个内核)都只会执行一条线程的指令。因此,为了线程切换后能恢复到正确的执行位置,每条线程都需要有一个独立的程序计数器,各条线程之间计数器互不影响,独立存储。所以程序计数器为 线程私有 的内存。
此内存区域是唯一一个在《Java虚拟机规范》中没有规定任何 OutOfMemoryError 情况的区域。
Java虚拟机栈
Java虚拟机栈(Java Virtual Machine Stack)描述的是Java 方法执行的线程内存模型:每个方法被执行的时候,Java 虚拟机都会同步创建一个 栈帧(Stack Frame)用于存储 局部变量表、操作数栈、动态连接、方法出口 等信息。每一个方法被调用直至执行完毕的过程,就对应着一个栈帧从虚拟机栈中从入栈到出栈的过程。也是 线程私有 的内存。
局部变量表
局部变量表 存放了编译期可知的各种 Java 虚拟机 基本数据类型(byte,short,char,boolean,int,long,float,double)、对象引用(reference类型,它可能是一个指向对象起始地址的引用指针,也可能是指向一个代表对象的句柄或者其他与此对象相关的位置)和 returnAddress类型(指向了一条字节码指令的地址)。
这些类型在局部变量表中的存储空间以 局部变量槽(Slot)来表示,其中 64 位长度的 long 和 double 类型的数据会占用两个变量槽,其余的数据类型只占一个。
局部变量表所需的内存空间在 编译期间完成分配,当进入一个方法时,这个方法需要在栈帧中分配多大的局部变量空间是完全确定的,在 方法运行期间不会改局部变量表的大小(这里所说的“大小”指的是槽的数量)。
在《Java虚拟机规范》中,对这个内存区域规定了两种异常情况:
- 如果线程请求的栈深度大于虚拟机所允许的深度,将抛出 StackOverflowError 异常。
- 如果 Java 虚拟机容量可动态扩展,当栈扩展时无法申请到足够的内存会抛出 OutOfMemoryError 异常。
本地方法栈
本地方法栈(Native Method Stacks)与虚拟机栈所发挥的作用是非常相似的,其区别是虚拟机栈为虚拟机执行 Java 方法(也就是字节码)服务,而本地方法则是为虚拟机使用到的本地(Native)方法服务。
《Java虚拟机规范》对本地方法栈中方法使用的语言、使用方式与数据结构并没有任何强制规定,因此具体的虚拟机可以根据需要自由实现它,甚至有的虚拟机(比如HotSpot)直接就把本地方法栈和虚拟机栈合二为一。该内存区域与虚拟机栈会抛出同样的异常。
Java堆
Java堆(Java Heap)通常是虚拟机所管理的内存中最大的一块。Java堆是被 所有线程共享 的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是 存放对象实例,Java世界里几乎所有的对象实例都会在这里分配内存。
根据《Java虚拟机规范》的规定,Java堆可以处于物理上不连续的内存空间中,但在逻辑上它应该被视为连续的。
Java堆既可以不被实现成固定大小的,也可以是可扩展的。如果在Java堆中没有内存完成实例分配,并且堆也无法再扩展时,Java 虚拟机将会抛出 OutOfMemoryError 异常。
方法区
方法区(Method Area)与 Java堆一样,是 各个线程共享 的内存区域,用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等数据。
《Java虚拟机规范》对方法区的约束是非常宽松的,除了和 Java堆一样不需要连续的内存和可以选择固定大小或者可扩展外,甚至还可以选择不实现垃圾收集。如果方法区无法满足新的内存分配需求时,将抛出 OutOfMemoryError 异常。
运行时常量池
运行时常量池(Runtime Constant Pool)是方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池表(Constant Pool Table),用于 存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。
Java语言要求常量并不一定只有编译期才能产生,运行期间也可以将新的常量放入池中,这种特性被开发人员利用的比较多的便是 String
类的intern()
(如果字符串在字符串常量池中存在对应字面量,则返回该字面量的地址;如果不存在,则创建一个对应的字面量,并返回该字面量的地址)方法。
HotSpot虚拟机内存区域
上文讲解的都是《Java虚拟机规范》所规定的运行时数据区。我们Java程序平时用的最多接触最多最常用的虚拟机是 HotSpot虚拟机,现在我们来看一下 Java8下的 HotSpot虚拟机的内存区域划分。
元空间对应方法区,Java7时被称为永久代。元空间的本质和永久代类似,都是对《Java虚拟机规范》中方法区的实现。不过元空间与永久代之间最大的区别在于:元空间并不在虚拟机中,而是使用本地内存。因此,默认情况下,元空间的大小仅受本地内存限制,但可以通过参数来指定元空间的大小。
为什么用元空间替换永久代?
- 字符串常量池存储在永久代中,如果大量使用字符串,很容易导致内存溢出。
- 永久代的大小在启动时是固定好,虚拟机加载的class的总数,方法的大小等都很难确定,所以很难设置大小。
- Sun HotSpot和Oracle JRockit合并,JRockit没有永久代的概念。
永久代最终被移除,方法区移至元空间,字符串常量移至Java堆。
HotSpot中的Java堆
新生代:新生代也可以叫年轻代,又分为伊甸园区和幸存者区。幸存者区又分为S0区、S1区或者From区、TO区。
老年代:存放生命周期长的对象。
Java堆是垃圾收集器管理的内存区域,因此也被称作 GC堆。从内存回收的角度看,垃圾收集器大部分都是基于分代收集理论设计的,所以 Java堆经常会出现“新生代”、“老年代”、“永久代”、“Eden区”、“From Survivor”、“To Survivor”等名词。这 仅仅是一部分垃圾收集器的共同特征或者说设计风格而已,并不是Java虚拟机具体实现的固有内存结构,更不是《Java虚拟机规范》里对 Java堆的进一步细致划分。
对象在Java堆中的分配、布局和访问
创建
-
Java虚拟机碰到一条 new 指令时,首先会去检查这个指令的参数是否能够在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已经被加载、解析和初始化(涉及到虚拟机的类加载机制,因为篇幅问题,后续会单独出一篇来详细说明),如果没有,必须先执行相应的类加载过程。
-
接下来虚拟机将为新生对象分配内存,对象所需内存的大小在类加载完成后便可完全确定。
-
内存分配完成之后,虚拟机必须将分配到的内存空间(但不包括对象头)都初始化为零值。这步操作保证了对象的实例字段在 Java代码中可以不赋初始值就直接使用,使程序能访问到这些字段的数据类型所对应的零值。
-
接下来,Java虚拟机还要对对象做必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的 GC分代年龄等信息。这些信息存放在对象的对象头中。
-
此时,从虚拟机的视角来看,一个新的对象已经产生,但是从Java的视角来看,对象的创建才刚刚开始——构造函数,即Class文件中的 <init>()方法还没有执行,<init>()会按照程序员的意愿对对象进行初始化,这样一个真正可用的对象才算完全被构造出来。
内存布局
在HotSpot虚拟机里,对象的堆内存中的存储布局可以划分为三个部分:对象头(Header)、实例数据(Instance Data)、对齐填充(Padding)。
对象头
HotSpot虚拟机的对象头包括两类信息。第一类是 Mark Word,第二类是 Klass Pointer。
- Mark Word:存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,这部分数据长度在 32 位和 64 位的虚拟机(未开启压缩指针)中分别位 32 个比特和 64 个比特。
- Klass Pointer:类型指针,即对象指向它的类型元数据的指针,Java虚拟机通过这个指针来确定该对象是哪个类的实例。并不是所有的虚拟机都必须在对象数据上保留类型指针。
实例数据
实例数据部分是对象真正存储的有效信息,即我们在程序代码里面所定义的各种类型的字段内容,无论是从父类继承下来的,还是在子类中定义的字段都必须记录起来。
对齐填充
对齐填充并不是必然存在的,也没有特别的含义,仅仅起着占位符的作用。HotSpot虚拟机的自动内存管理系统要求对对象起始地址必须是8字节的整数倍,就是任何对象的大小都必须是8字节的整数倍,所以会用到对齐填充。
访问定位
创建对象自然为了后续使用该对象,我们的 Java程序会通过栈上的 reference 数据来操作栈上的具体对象。由于 reference 数据类型在《Java虚拟机规范》里面只规定了它是一个指向对象的引用,并没有定义这个引用应该通过什么方式去定位、访问到堆中对象的具体位置,所以对象访问方式也是由虚拟机实现而定的,主流的访问方式主要有 使用句柄 和 直接指针 两种。
- 如果使用句柄的话,Java堆中将可能会划分出一块内存来作为句柄地,reference 中存储的就是对象的句柄地址,而句柄中包含了对象示例数据和类型数据各自具体的地址信息。
- 如果使用直接指针的话,Java堆中对象的内存布局就必须考虑如何放置访问类型的相关信息,reference 中存储的直接就是对象地址,如果只是访问对象本身的话,就不需要多一次直接访问的开销。
直接指针的方式节省了一次指针定位的时间开销,由于对象访问在 Java 中非常频繁,因此这一次时间开销也是极为可观的。HotSpot虚拟机主要使用第二种方式进行对象访问。