对象创建
当Java虚拟机遇到一条字节码new指令时,首先将去检查这个指令的参数是否能在常量池中定位到 一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那必须先执行相应的类加载过程,类加载是通过双亲委派机制进行的。
一个类在加载时就已经确定了所占内存大小,在类加载检查通过后,就需要在堆上分配这个类所需大小的地址空间,通常分配的方式有两种:碰撞指针和空闲列表。
- 碰撞指针:要求堆上的内存是规整,也就是说已使用的地址空间在一边,未使用的空间在另一边,有一个指针在中间标记当前空闲地址的起始位置,在分配时只需要将指针向后移动就可分配空间;
- 空闲列表:指的是有一张表记录中堆上的空闲地址,分配内存时需要在空闲列表中找出空闲的地址进行分配,并且更新列表。
单独比较这两种方式,碰撞指针看起来更简单一些,不需要维护额外一种列表,但问题是如果堆上已使用的内存和未使用的内存是交错在一起的,理论上就只能使用空闲列表了。而地址是否规整取决于垃圾收集器,在进行垃圾收集的时候,是否会对地址空间进行压缩整理。
给对象分配内存的时候要需要考虑到线程问题,因为不论上面两种方法中的哪一种都不是线程安全的,也就是说可能两个线程中对象分配到了同一个空间,这显然是不能发生的。有两种方式可以保证线程安全问题:提供同步机制,实际上虚拟机采用的CAS的方式保证更新操作的原子性;另一种是类似ThreadLocal的方式,每个线程有独立的一块空间称为本地线程分配缓冲(TLAB),线程要分配内存就现在TLAB中分配,当本地缓存没有空闲地址了,分配新的缓存区时就需要需要同步锁定。虚拟机是否使用TLAB,可以通过-XX:+/-UseTLAB参数来定。
内存分配完成之后,虚拟机必须将分配到的内存空间(但不包括对象头)都初始化为零值,如果使用了TLAB的话,这一项工作也可以提前至TLAB分配时顺便进行。这步操作保证了对象的实例字段在Java代码中可以不赋初始值就直接使用,使程序能访问到这些字段的数据类型所对应的零值。接下来,Java虚拟机还要对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码(实际上对象的哈希码会延后到真正调用Object::hashCode()方法时才计算)、对象的GC分代年龄等信息。这些信息存放在对象的对象头(Object Header)之中。根据虚拟机当前运行状态的不同,如是否启用偏向锁等,对象头会有不同的设置方式。
在上面工作都完成之后,从虚拟机的视角来看,一个新的对象已经产生了,但是如果我们为某个成员变量赋了值初始值,在这个时候它并不是我们所期望的那样,因为()方法还没有执行,成员变量都还是数据类型对应的零值,并不是我们要的初始值,只有在执行完()后,我们需要的对象才真正创建出来。
对象的内存布局
在HotSpot虚拟机里,对象在堆内存中的存储布局可以划分为三个部分:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。
- 对象头:包含两类分信息,一类是用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等;的另外一部分是类型指针,即对象指向它的类型元数据的指针,Java虚拟机通过这个指针来确定该对象是哪个类的实例,并不是所有的虚拟机实现都必须在对象数据上保留类型指针,换句话说,查找对象的元数据信息并不一定要经过对象本身,可以通过句柄来指向。此外,如果对 象是一个Java数组,那在对象头中还必须有一块用于记录数组长度的数据,因为虚拟机可以通过普通 Java对象的元数据信息确定Java对象的大小,但是如果数组的长度是不确定的,将无法通过元数据中的 信息推断出数组的大小。
- 实例数据:就是保存程序代码里面所定义的各种类型的字段内容,无论是从父类继承下来的,还是在子类中定义的字段都必须记录起来。
- 对齐填充:这并不是必然存在的,也没有特别的含义,它仅仅起着占位符的作用。由于HotSpot虚拟机的自动内存管理系统要求对象起始地址必须是8字节的整数倍,换句话说就是任何对象的大小都必须是8字节的整数倍。对象头部分已经被精心设计成正好是8字节的倍数(1倍或者2倍),因此,如果对象实例数据部分没有对齐的话,就需要通过对齐填充来补全。
对象的访问定位
对象访问通常有两种方式:句柄和直接指针。
- 句柄:Java堆中将可能会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自具体的地址信息。这样对象头中就可以不用保存对象类型数据了。
- 直接指针:reference中存储的直接就是对象地址,如果只是访问对象本身的话,就不需要多一次间接访问的开销。这样对象头就需要保存对象类型数据。
这两种方式各有优缺点,句柄的缺点很明显,需要两次访问才能定位到对象的内存地址,优点在于当对象存储地址发生变更时(在垃圾收集时),只需要改变句柄的指向即可,如果对象有很多引用的话优势更明显;直接指针的缺点就是当对象地址发生变更时,需要将每个指向该对象的指针都修改,而优点是直接指向,不需要二次定位,定位效率更高。HotSpot虚拟机主要使用直接指针。