写在前面,本文有点长。请耐心阅读
1.并发下的HashMap
1.1存在的问题
- JDK7采用头插法,扩容时出现循环列表问题
- JDK8采用尾插法,解决循环列表问题,多线程的put可能导致元素的丢失
- put和get并发时,可能导致get为null
简单举个的例子:
将hashmap初始容量设置为最终的容量,这样就不会调用resize方法。使用两个线程向hashMap 进行添加数据。最终hash的个数不是10000,且每次的运行结果都不固定。这种情况使用ConcurrentHashMap就会解决并发下的问题。
public class ConcurrentHashMapDemo {
// 将hashmap初始容量设置为最终的容量,这样就不会调用resize方法
// 32768*0.75=24576, 10000个数据不会扩容
private static HashMap<String, Integer> hashMap = new HashMap<>(2 << 14);
public static void main(String[] args) throws InterruptedException {
PutThread putThread = new PutThread();
putThread.start();
putThread.join();
System.out.println("putThread run end");
System.out.println("hashMapCount:" + hashMap.size());
}
static class PutThread extends Thread {
@Override
public void run() {
// 2个线程同时向HashMap插入数据,每个线程插入5000条
Thread threadA = new Thread(() -> {
for (int j = 0; j < 5000; j++) {
hashMap.put(j + "_A", j);
}
});
Thread threadB = new Thread(() -> {
for (int j = 0; j < 5000; j++) {
hashMap.put(j + "_B", j);
}
});
threadA.start();
threadB.start();
try {
threadA.join();
threadB.join();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
}
1.2解决办法
-
hashTable
-
Collections.synchronizedMap(new HashMap);
-
ConcurrentHashMap
2.ConcurrentHashMap的使用
ConcurrentHashMap 是 J.U.C 包里面提供的一个线程安全并且高效的 HashMap,所以ConcurrentHashMap 在并发编程的场景中使用的频率比较高,接下来我们就ConcurrentHashMap 的使用上以及源码层面来分析 ConcurrentHashMap 到底是如何实现安全性的。 ConcurrentHashMap 是 Map 的派生类,所以 api 基本和 Hashmap 是类似,主要就是 put、get、remove 这些方法,接下来基于 ConcurrentHashMap的put 和get这两个方法作为切入点来分析 ConcurrentHashMap 的源码实现。
3.ConcurrentHashMap的源码分析
本文都是以JDK1.8源码进行分析。同时需要hashMap与红黑树的相关的知识。具体可以参考以下两篇博文
3.1JDK1. .7 7 和 J J8 dk1.8 版本的变化
ConcurrentHashMap 和 HashMap 的实现原理是差不多的,但是因为 ConcurrentHashMap需要支持并发操作,所以在实现上要比 hashmap 稍微复杂一些。 在 JDK1.7 的实现上, ConrruentHashMap 由一个个 Segment 组成,简单来说,ConcurrentHashMap 是一个 Segment 数组,它通过继承 ReentrantLock 来进行加锁,通过每次锁住一个 segment来保证每个 segment内的操作的线程安全性从而实现全局线程安全。整个结构图如下:
1.8 相比于 1.7 版本,它做了两个改进:
-
取消了 segment 分段设计,直接使用 Node 数组来保存数据,并且采用 Node 数组元素作为锁来实现每一行数据进行加锁来进一步减少并发冲突的概率
-
将原本数组+单向链表的数据结构变更为了数组+单向链表+红黑树的结构。在正常情况下,key hash 之后如果能够很均匀的分散在数组中,那么 table 数组中的每个队列的长度主要为 0 或者 1.但是实际情况下,还是会存在一些队列长度过长的情况。如果还采用单向列表方式,那么查询某个节点的时间复杂度就变为 O(n); 因此对于队列长度超过 8 的列表,JDK1.8 采用了红黑树的结构,那么查询的时间复杂度就会降低到O(logN),可以提升查找的性能;
3.2重要成员变量
- table:默认为null,初始化发生在第一次插入操作,默认大小为16的数组,用来存储Node节点数据,大小总是2的幂次方。
- nextTable:默认为null,扩容时新生成的数组,其大小为原数组的两倍。
- baseCount与counterCells组合使用存储元素的个数
- sizeCtl :默认为0,用来控制table的初始化和扩容操作。不同的值代表的意思也不同。
- sizeCtl = 0
- table数组还没有被初始化及初始化Map的时候没有指定table数组的初始容量。
- sizeCtl > 0
- 如果初始化Map的时候指定了数值,此时为table数组的初始容量
- table数组初始化完成后,此时会变为扩容时元素个数的阈值。table.length * 0.75
- sizeCtl = -1
- table数组正在初始化,一个CAS操作。避免其他线程同时进行初始化操作。
- sizeCtl = -n
- sizeCtl 的高16位表示扩容的标记,
低16位 - 1表示正在扩容的线程数。
- sizeCtl 的高16位表示扩容的标记,
- sizeCtl = 0
3.3put操作
ConcurrentHashMap的put操作是一个复杂的过程。
- table数组的初始化。
- 新添加一个元素的时。数据结构的变化:链表或红黑树,链表转红黑树
- 元素个数即size的存储。
- 扩容resize操作。
以上每个操作都要考虑到并发的可能性,整体代码如下:简单加下注释
final V putVal(K key, V value, boolean onlyIfAbsent) {
// key与value都不能为空
if (key == null || value == null) throw new NullPointerException();
// 计算hash值
int hash = spread(key.hashCode());
int binCount = 0;
// 因为存在并发,自旋进行处理。此次put失败进行下一次操作,直到成功。break跳出即可
// 当出现线程竞争时不断自旋
for (Node<K,V>[] tab = table;;) {
Node<K,V> f; int n, i, fh;
// 数组未进行初始化
if (tab == null || (n = tab.length) == 0)
// 初始化table数组,接下来具体分析
tab = initTable();
// 获取bucket,判断是否为空。
// (n - 1) & hash获得元素在table中的下标,在hashMap中有详细的介绍。
//通过hash值对应的数组下标得到第一个节点; 以 volatile 读的方式来读取 table 数组中的元素,保证每次拿到的数据都是最新的
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
// bucket为空,通过CAS进行值得设置。并发操作,如果CAS失败,进行下一次的循环,把元素追加在尾部形成链表。
if (casTabAt(tab, i, null,
new Node<K,V>(hash, key, value, null)))
break; // no lock when adding to empty bin
}
// 表示当前有线程正在扩容,把此位置的元素移到新扩容的数组中
// ForwardingNode节点
else if ((fh = f.hash) == MOVED)
// 协助扩容
tab = helpTransfer(tab, f);
// 进入到这个分支,说明f是当前node数组对应位置节点的头节点,并且不为空
else {
V oldVal = null;
// 给对应的头结点加锁
synchronized (f) {
// 再次判断对应下标位置是否为 f 节点
if (tabAt(tab, i) == f) {
// 头结点的 hash 值大于 0,说明是链表
if (fh >= 0) {
// 用来记录链表的长度
binCount = 1;
for (Node<K,V> e = f;; ++binCount) {
K ek;
// 如果发现相同的 key,则判断是否需要进行值的覆盖
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
// 默认情况下,直接覆盖旧的值
if (!onlyIfAbsent)
e.val = value;
break;
}
Node<K,V> pred = e;
// 一直遍历到链表的最末端,直接把新的值加入到链表的最后面
if ((e = e.next) == null) {
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
// 如果当前的 f 节点是一颗红黑树
else if (f instanceof TreeBin) {
Node<K,V> p;
binCount = 2;
// 则调用红黑树的插入方法插入新的值
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
// 同样,如果值已经存在,则直接替换
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
// 链表长度达到8即链表转红黑树的阈值
if (binCount != 0) {
if (binCount >= TREEIFY_THRESHOLD)
// 把链表转红黑树
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
}
// 元素个数+1。需要考虑并发性及性能
// 里面也包含扩容的判断操作
addCount(1L, binCount);
return null;
}
3.3.1initTable数组初始化
数组初始化方法,这个方法比较简单,就是初始化一个合适大小的数组。sizeCtl的意义上面已经详细讲解过,结合本段代码进行理解。
private final Node<K,V>[] initTable() {
Node<K,V>[] tab; int sc;
// 数组还未被初始化
while ((tab = table) == null || tab.length == 0) {
// 被其他线程抢占了初始化的操作,则直接让出自己的 CPU时间片
if ((sc = sizeCtl) < 0)
Thread.yield(); // lost initialization race; just spin
// 通过 cas 操作,将 sizeCtl 替换为-1,标识当前线程抢占到了初始化资格
else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
try {
if ((tab = table) == null || tab.length == 0) {
// 是否指定了初始容量,如果没有使用默认初始容量为16
int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
@SuppressWarnings("unchecked")
// 初始化数组,长度为16,或者初始化在构造 ConcurrentHashMap 的时候传入的长度
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
// 将这个数组赋值给 table
table = tab = nt;
//计算下次扩容的大小,实际就是当前容量的 0.75倍,这里使用了右移来计算
sc = n - (n >>> 2);
}
} finally {
//设置 sizeCtl 为 sc, 如果默认是 16 的话,那么这个时候sc=16*0.75=12
sizeCtl = sc;
}
break;
}
}
return tab;
}
3.3.2tabAt获取bucket
该方法获取对象中offset偏移地址对应的对象field的值。实际上这段代码的含义等价于tab[i],但是为什么不直接使用 tab[i]来计算呢?
getObjectVolatile,一旦看到 volatile 关键字,就表示可见性。因为对 volatile 写操作 happen-before 于 volatile 读操作,因此其他线程对 table 的修改均对 get 读取可见;虽然 table 数组本身是增加了 volatile 属性,但是volatile 的数组只针对数组的引用具有volatile 的语义,而不是它的元素。 所以如果有其他线程对这个数组的元素进行写操作,那么当前线程来读的时候不一定能读到最新的值。
else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
// 通过hash值获得桶为null,通过CAS操作。竞争失败,会进行下一次for循环。参考自旋操作的代码
if (casTabAt(tab, i, null,
new Node<K,V>(hash, key, value, null)))
break; // no lock when adding to empty bin
}
static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) {
return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE);
}
3.3.3addCount存储元素的个数
在putVal方法执行完成以后,会通过addCount来增加ConcurrentHashMap中的元素个数,并且还会可能触发扩容操作。
这里会有两个非常经典的设计:
- 高并发下的扩容
- 如何保证 addCount 的数据安全性以及性能
如果使用一个变量size来存储元素的个数。为了保证并发下的安全,每个线程都要CAS操作,失败继续循环重试,及其影响性能。
因此使用baseCount与counterCells可以解决此问题。每个counterCell存储一部分元素的个数,接下来重点分析此部分的源码设计。
// 将当前 ConcurrentHashMap 的元素数量加 1,有可能触发 transfer 操作(扩容)
addCount(1L, binCount);
x 表示这次需要在表中增加的元素个数,check 参数表示是否需要进行扩容检查,大于等于0都需要进行检查
private final void addCount(long x, int check) {
CounterCell[] as; long b, s;
// 判断 counterCells 是否为空
// 1、如果为空,就通过 cas 操作尝试修改 baseCount 变量。意义:如果在没有竞争的情况下,仍然采用 baseCount 来记录元素个数)
// 2、如果 cas 失败说明存在竞争,这个时候不能再采用 baseCount 来累加,而是通过CounterCell 来记录
if ((as = counterCells) != null ||
!U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
CounterCell a; long v; int m;
// 是否冲突标识,默认为没有冲突
boolean uncontended = true;
// 这里有几个判断
// 1. 计数表为空则直接调用 fullAddCount
// 2. 从计数表中随机取出一个数组的位置为空,直接调用 fullAddCount
// 3. 通过 CAS 修改 CounterCell 随机位置的值,如果修改失败说明出现并发情况
if (as == null || (m = as.length - 1) < 0 ||
(a = as[ThreadLocalRandom.getProbe() & m]) == null ||
!(uncontended =
U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
// counterCells初始化
// CELLVALUE进行CAS失败时,存在冲突进行的计数操作
// counterCells的扩容
fullAddCount(x, uncontended);
return;
}
// 链表长度小于等于 1,不需要考虑扩容
if (check <= 1)
return;
// 统计 ConcurrentHashMap 元素个数,扩容时会使用
s = sumCount();
}
if (check >= 0) {
// 扩容操作,先不分析。接下来讲解
}
}
3.3.3.1CounterCells 解释
ConcurrentHashMap 是采用 CounterCell 数组来记录元素个数的,像一般的集合记录集合大小,直接定义一个 size 的成员变量即可,当出现改变的时候只要更新这个变量就行。为什么ConcurrentHashMap 要用这种形式来处理呢? 问题还是处在并发上,ConcurrentHashMap 是并发集合,如果用一个成员变量来统计元素个数的话,为了保证并发情况下共享变量的安全性,势必会需要通过加锁或者自旋CAS来实现,如果竞争比较激烈的情况下,size 的设置上会出现比较大的冲突反而影响了性能,所以在ConcurrentHashMap 采用了分片的方法来记录大小。
// 标识当前 cell 数组是否在初始化或扩容中的CAS 标志位
// 默认值cellsBusy=0,counterCells没有在初始化
// cellsBusy=1,counterCells在进行初始化
// 用于与CAS配合实现排他性,CAS从0改为1代表获取锁
// 用于保护初始化CounterCell、初始化CounterCell数组以及对CounterCell数组进行扩容时的安全
private transient volatile int cellsBusy;
// counterCells 数组,总数值的分值分别存在每个cell中
// 初始大小为2,每次扩容翻倍,存储CounterCell对象,该对象有个value变量,用来存储个数
// 该数组的大小上限与当前机器的CPU数量有关,它不会被主动初始化,
private transient volatile CounterCell[] counterCells;
@sun.misc.Contended static final class CounterCell {
volatile long value;
CounterCell(long x) { value = x; }
}
3.3.3.2fullAddCount
fullAddCount 主要是用来初始化 CounterCell,来记录元素个数,里面包含扩容,初始化等操作。
分析此段代码时,先分析CounterCells的初始化操作。
private final void fullAddCount(long x, boolean wasUncontended) {
int h;
// 获取当前线程的 probe 的值,如果值为 0,则初始化当前线程的 probe 的值,probe 就是随机数
if ((h = ThreadLocalRandom.getProbe()) == 0) {
ThreadLocalRandom.localInit(); // force initialization
h = ThreadLocalRandom.getProbe();
// 由于重新生成了 probe,未冲突标志位设置为 true
wasUncontended = true;
}
boolean collide = false; // True if last slot nonempty
// 自旋
for (;;) {
CounterCell[] as; CounterCell a; int n; long v;
// 说明 counterCells 已经被初始化过了
if ((as = counterCells) != null && (n = as.length) > 0) {
// 通过该值与当前线程 probe 求与,获得cells 的下标元素,和 hash 表获取索引是一样的
if ((a = as[(n - 1) & h]) == null) {
// cellsBusy=0 表示 counterCells 不在初始化或者扩容状态下
if (cellsBusy == 0) {
// 构造一个 CounterCell 的值,传入元素个数
CounterCell r = new CounterCell(x);
// 通过 cas 设置 cellsBusy 标识,防止其他线程来对 counterCells 并发处理
if (cellsBusy == 0 &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
boolean created = false;
try {
CounterCell[] rs; int m, j;
// 将初始化的 r 对象的元素个数放在对应下标的位置
if ((rs = counterCells) != null &&
(m = rs.length) > 0 &&
rs[j = (m - 1) & h] == null) {
rs[j] = r;
created = true;
}
} finally {
// 恢复标志位
cellsBusy = 0;
}
// 创建成功,退出循环
if (created)
break;
// 说明指定 cells 下标位置的数据不为空,则进行下一次循环
continue;
}
}
collide = false;
}
// 说明在 addCount 方法中 cas 失败了,并且获取 probe 的值不为空
else if (!wasUncontended)
// 设置为未冲突标识,进入下一次自旋
// 后面会ThreadLocalRandom.advanceProbe(h),countCells数组下标的随机数值可能会改变
wasUncontended = true;
// 由于指定下标位置的 cell 值不为空,则直接通过 cas 进行原子累加,如果成功,则直接退出
else if (U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))
break;
// 如果已经有其他线程建立了新的 counterCells(扩容结束)
// counterCells 大于 CPU 核心数,counterCells不会在进行扩容
else if (counterCells != as || n >= NCPU)
// 设置当前线程的循环失败不进行扩容
collide = false;
// 同一个counterCell,cas冲突严重。线程自旋把wasUncontended设置为true,collide设置为true,下次自旋的时候就会扩容
// 恢复 collide 状态,标识下次循环会进行扩容
else if (!collide)
collide = true;
//进入这个步骤,说明 CounterCell 数组容量不够,线程竞争较大,所以先设置一个标识表示为正在扩容
else if (cellsBusy == 0 &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
try {
if (counterCells == as) {
// 扩容一倍 2 变成 4 ,这个扩容比较简单
CounterCell[] rs = new CounterCell[n << 1];
for (int i = 0; i < n; ++i)
rs[i] = as[i];
counterCells = rs;
}
} finally {
// 恢复标识
cellsBusy = 0;
}
collide = false;
// 扩容结束后,继续下一次自旋。在新的countCells数组中进行计数+1
continue;
}
// 更新随机数的值,可以减小同一个counterCell的并发压力
h = ThreadLocalRandom.advanceProbe(h);
}
// cellsBusy=0 表示没有在做初始化,通过 cas 更新 cellsbusy 的值标注当前线程正在做初始化操作。
// 保证counterCells只会被初始化一次
else if (cellsBusy == 0 && counterCells == as &&
U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
boolean init = false;
try {
// 再次判断counterCells是否为null
if (counterCells == as) {
// 初始化容量为 2
CounterCell[] rs = new CounterCell[2];
// 将 x 也就是元素的个数放在指定的数组下标位置
rs[h & 1] = new CounterCell(x);
// 赋值给 counterCells
counterCells = rs;
// 设置初始化完成标识
init = true;
}
} finally {
// 恢复counterCells初始化标识
cellsBusy = 0;
}
if (init)
break;
}
// 竞争激烈,counterCells未初始化完成。其它线程占据 counterCells 的初始化
// 直接尝试累加在base变量中,其他线程addcount有可能cas结束,被这个线程抢占进行cas
else if (U.compareAndSwapLong(this, BASECOUNT, v = baseCount, v + x))
break; // Fall back on using base
}
}
3.3.3.3sumCount元素的个数
// 比较简单,baseCount与每个countCell中的个数累加
final long sumCount() {
CounterCell[] as = counterCells; CounterCell a;
long sum = baseCount;
if (as != null) {
for (int i = 0; i < as.length; ++i) {
if ((a = as[i]) != null)
sum += a.value;
}
}
return sum;
}
3.3.4transfer扩容
3.3.4.1什么时候会触发扩容
- 如果新增节点之后,所在的链表的元素个数大于等于8,则会调用treeifyBin把链表转换为红黑树。在转换结构时,若tab的长度小于MIN_TREEIFY_CAPACITY,默认值为64,则会将数组长度扩大到原来的两倍,并触发transfer,重新调整节点位置。(只有当tab.length >= 64, ConcurrentHashMap才会转换成红黑树。)
- 新增节点后,addCount统计tab中的节点个数大于阈值(sizeCtl),会触发扩容。
3.3.4.2扩容原理
-
如果当前正在处于扩容阶段,则当前线程会加入并且协助扩容(主要负责迁移数据),一个线程负责(从后往前的顺序)一个stride部分,将数据迁移到新的table中 。
-
如果当前没有在扩容,则直接触发扩容操作
3.3.4.3addCount
private final void addCount(long x, int check) {
CounterCell[] as; long b, s;
// ... (省略的代码)
// 利用CAS更新baseCount及countCell计数。上面已经详细介绍过
// check就是结点数量,有新元素加入成功才检查是否要扩容
if (check >= 0) {
Node<K,V>[] tab, nt; int n, sc;
// s表示加入新元素后容量大小(通过sumCount计算得来)
// 如果集合大小大于或等于扩容阈值并且 table 不为空并且 table 的长度小于最大容量, 触发扩容
while (s >= (long)(sc = sizeCtl) && (tab = table) != null &&
(n = tab.length) < MAXIMUM_CAPACITY) {
// 扩容标志位,下面会详细讲
// n不同则返回值不同,它的返回值被当作是当前table的扩容标识,扩容期间sizeCtl的高16为就为该值+(1 << 15),
int rs = resizeStamp(n);
// sc<0表示已经有线程在进行扩容工作
if (sc < 0) {
// 扩容已经结束,中断循环
// sc >>> RESIZE_STAMP_SHIFT!=rs 表示比较高 16 位扩容戳和 rs 是否相等
// sc=rs+1 表示扩容结束
// sc==rs+MAX_RESIZERS 表示帮助线程线程已经达到最大值了
// (nt = nextTable) == null 表示扩容已经结束或者nextTable还未完成初始化,下次循环初始化完成后再协助扩容
// transferIndex<=0 表示所有的 transfer 任务都被领取完了,没有剩余的hash 桶来给自己自己好这个线程来做 transfer
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
// 当前线程尝试协助扩容,如果成功,则调用 transfer(扩容线程数+1)
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
transfer(tab, nt);
}
// 触发扩容(第一个进行扩容的线程)
// 并设置sizeCtl为rs << RESIZE_STAMP_SHIFT) + 2告知其他线程
// sizeCtl之前代表阀值,更改后高16位为扩容标识,低16位为扩容线程数加一
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
// 第二个参数为null会初始化新数组nextTable,确保只有一个线程新建table
transfer(tab, null);
// 统计个数,用于循环检测是否还需要扩容
s = sumCount();
}
}
}
3.3.4.4resizeStamp
resizeStamp 用来生成一个和扩容有关的扩容戳。该函数返回一个用于数据校验的标志位,是对长度为n的table进行扩容。它将n的前导零(最高有效位之前的零的数量)和1 << 15做或运算,这时低16位的最高位为1,其他都为n的前导零。
private static int RESIZE_STAMP_BITS = 16;
static final int resizeStamp(int n) {
return Integer.numberOfLeadingZeros(n) | (1 << (RESIZE_STAMP_BITS - 1));
}
Integer.numberOfLeadingZeros 这个方法是返回无符号整数 n 最高位非 0 位前面的 0 的个数 比如 10 的二进制是 0000 0000 0000 0000 0000 0000 0000 1010那么这个方法返回的值就是 28
高 16 位代表扩容的标记、低 16 位代表并行扩容的线程数。
-
首先在 CHM 中是支持并发扩容的,也就是说如果当前的数组需要进行扩容操作,可以由多个线程来共同负责,这个后面会分析。
-
可以保证每次扩容都生成唯一的生成戳,每次新的扩容,都有一个不同的 n,这个生成戳就是根据 n 来计算出来的一个数字,n 不同,这个数字也不同
3.3.4.5 transfer
当ConcurrentHashMap容量不足的时候,需要对table进行扩容。这个方法的基本思想跟HashMap是很像的,但是由于它是支持并发扩容的,所以要复杂的多。原因是它支持多线程进行扩容操作,而并没有加锁。我想这样做的目的不仅仅是为了满足concurrent的要求,而是希望利用并发处理去减少扩容带来的时间影响。因为在扩容的时候,总是会涉及到从一个“数组”到另一个“数组”拷贝的操作。
整个扩容操作分为两个部分:
- 第一部分是构建一个nextTable,它的容量是原来的两倍,这个操作是扩容的第一个线程完成的。会保证第一个发起数据迁移的线程,nextTab 参数为 null,之后再调用此方法的时候,nextTab 不会为 null。
- 第二个部分就是将原来table中的元素复制到nextTable中,这里允许多线程进行操作。
先来看一下单线程是如何完成的:
它的大体思想就是遍历、复制的过程。首先根据运算得到需要遍历的次数i,然后利用tabAt方法获得i位置的元素:
- 如果这个位置为空,就在原table中的i位置放入forwardNode节点,这个也是触发并发扩容的关键点;
- 如果这个位置是Node节点(fh>=0),如果它是一个链表的头节点,就构造一个反序链表,把他们分别放在nextTable的i和i+n的位置上
- 如果这个位置是TreeBin节点(fh<0),也做一个反序处理,并且判断是否需要untreefi,把处理的结果分别放在nextTable的i和i+n的位置上
- 遍历过所有的节点以后就完成了复制工作,这时让nextTable作为新的table,并且更新sizeCtl为新容量的0.75倍 ,完成扩容。
对Bucket扩容迁移的时候也会使用synchronized同步,与put的时候使用同一把锁,互斥
private final void transfer(Node<K,V>[] tab, Node<K,V>[] nextTab) {
// n为旧tab的长度,stride为步长(就是每个线程迁移的节点数)
int n = tab.length, stride;
// 根据当前机器的CPU数量来决定每个线程负责的bucket数
// 避免因为扩容线程过多,反而影响到性能
// 如果桶较少的话,默认一个 CPU(一个线程)处理16个桶。
// 只有table的长度大于16才会有线程辅助扩容,否则都是一个线程进行处理
if ((stride = (NCPU > 1) ? (n >>> 3) / NCPU : n) < MIN_TRANSFER_STRIDE)
stride = MIN_TRANSFER_STRIDE;
// nextTab 未初始化, nextTab 是用来扩容的 node 数组
if (nextTab == null) {
try {
@SuppressWarnings("unchecked")
// 新建一个 n<<1 原始 table 大小的 nextTab,也就是 原来的2倍
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n << 1];
// 赋值给 nextTab
nextTab = nt;
} catch (Throwable ex) {
// 扩容失败,sizeCtl 使用 int 的最大值
sizeCtl = Integer.MAX_VALUE;
return;
}
// 更新成员变量
nextTable = nextTab;
// 更新转移下标,表示转移时的下标。用于控制迁移位置
transferIndex = n;
}
int nextn = nextTab.length;
// 创建一个 fwd 节点,表示一个正在被迁移的 Node,并且它的 hash 值为-1(MOVED),其中有个nextTable属性指向新tab[]
// 也就是前面我们在讲 putval 方法的时候,会有一个判断 MOVED 的逻辑,它的作用是用来占位
// 表示原数组中位置 i 处的节点完成迁移以后,就会在 i 位置设置一个 fwd 来告诉其他线程这个位置已经处理过了,此时需要先协助扩容
ForwardingNode<K,V> fwd = new ForwardingNode<K,V>(nextTab);
// advance为true,可以继续迁移下一个节点,false则停止迁移。
boolean advance = true;
// 是否结束迁移
boolean finishing = false;
// i是当前迁移位置的索引,bound是迁移的边界,是从后往前的顺序
for (int i = 0, bound = 0;;) {
// 这个循环使用CAS不断尝试为当前线程分配任务
// 直到分配成功或任务队列已经被全部分配完毕
// 如果当前线程已经被分配过bucket区域
// 那么会通过--i指向下一个待处理bucket然后退出该循环
Node<K,V> f; int fh;
while (advance) {
int nextIndex, nextBound;
// --i表示将i指向下一个待处理的bucket
// 如果--i >= bound,代表当前线程已经分配过bucket区域并且还留有未处理的bucket
if (--i >= bound || finishing)
advance = false;
// transferIndex(上一次迁移的边界)赋值给nextIndex(必执行),这里transferIndex一旦小于等于0
// 则说明原数组的所有位置的迁移都有相应的线程去处理了,该线程可以不用迁移了
else if ((nextIndex = transferIndex) <= 0) {
i = -1;
advance = false;
}
// 将nextBound赋值给transferIndex,nextBound = nextIndex - stride(上一个边界减去步长)
// i = nextIndex - 1(上一个边界-1变成开始迁移的位置)
else if (U.compareAndSwapInt
(this, TRANSFERINDEX, nextIndex,
nextBound = (nextIndex > stride ?
nextIndex - stride : 0))) {
// 确定当前线程每次分配的待迁移桶的范围为[bound, nextIndex)
bound = nextBound;
i = nextIndex - 1;
advance = false;
}
}
// i < 0 说明已经遍历完旧的数组,也就是当前线程已经处理完所有负责的 bucket
if (i < 0 || i >= n || i + n >= nextn) {
int sc;
// finishing为true,说明所有线程迁移完成,将nextTable设为空,sizeCtl为新tab.length * 0.75
if (finishing) {
nextTable = null;
table = nextTab;
sizeCtl = (n << 1) - (n >>> 1);
return;
}
// 该线程完成迁移,sizeCtl - 1,对应之前helpTransfer()中+1
if (U.compareAndSwapInt(this, SIZECTL, sc = sizeCtl, sc - 1)) {
// (resizeStamp << RESIZE_STAMP_SHIFT) + 2代表当前有一个扩容线程
// 相对的,(sc - 2) != resizeStamp << RESIZE_STAMP_SHIFT
// 表示当前还有其他线程正在进行扩容,所以直接返回
if ((sc - 2) != resizeStamp(n) << RESIZE_STAMP_SHIFT)
return;
// 如果相等,则说明所有线程都完成任务了,设置finish为true
finishing = advance = true;
// 再次循环检查一下整张表
i = n;
}
}
// 如果旧tab[i]为null,则放入ForwardingNode,以通知其他现程
else if ((f = tabAt(tab, i)) == null)
advance = casTabAt(tab, i, null, fwd);
// 如果该节点为ForwardingNode,则说明已经被迁移过了,就可以开始迁移下一个节点了
else if ((fh = f.hash) == MOVED)
advance = true; // already processed
else {
// 对数组该节点位置加锁,开始处理数组该位置的迁移工作。
// 将一条链切位两条链,一个放在原有的i下标位置,一个放在i+n
synchronized (f) {
// 再做一次校验
if (tabAt(tab, i) == f) {
//ln 表示低位, hn 表示高位;接下来这段代码的作用是把链表拆分成两部分,0 在低位,1 在高位
Node<K,V> ln, hn;
if (fh >= 0) {
int runBit = fh & n;
Node<K,V> lastRun = f;
// 遍历当前 bucket 的链表,目的是尽量重用 Node 链表尾部的一部分
// 这样最后这一段链表就不用重新创建新结点了
for (Node<K,V> p = f.next; p != null; p = p.next) {
int b = p.hash & n;
if (b != runBit) {
runBit = b;
lastRun = p;
}
}
// runBit == 0,说明位置没有变,不等于0,说明位置变化为oldLength + 原位置
if (runBit == 0) {
ln = lastRun;
hn = null;
}
else {
hn = lastRun;
ln = null;
}
// 构造高位以及低位的链表
for (Node<K,V> p = f; p != lastRun; p = p.next) {
int ph = p.hash; K pk = p.key; V pv = p.val;
// 低位链表 放在原位置
if ((ph & n) == 0)
ln = new Node<K,V>(ph, pk, pv, ln);
// 高位链表放在oldLength + 原位置
else
hn = new Node<K,V>(ph, pk, pv, hn);
}
// 将低位的链表放在新数组 i 位置也就是不动
setTabAt(nextTab, i, ln);
// 将高位链表放在新数组 i+n 位置
setTabAt(nextTab, i + n, hn);
// 把旧 table 的 hash 桶中放置转发节点,表明此 hash 桶已经被处理
setTabAt(tab, i, fwd);
advance = true;
}
// 树的迁移
// 红黑树不仅记录着树的关系,还维持着链表的关系
else if (f instanceof TreeBin) {
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> lo = null, loTail = null;
TreeNode<K,V> hi = null, hiTail = null;
int lc = 0, hc = 0;
for (Node<K,V> e = t.first; e != null; e = e.next) {
int h = e.hash;
TreeNode<K,V> p = new TreeNode<K,V>
(h, e.key, e.val, null, null);
if ((h & n) == 0) {
if ((p.prev = loTail) == null)
lo = p;
else
loTail.next = p;
loTail = p;
++lc;
}
else {
if ((p.prev = hiTail) == null)
hi = p;
else
hiTail.next = p;
hiTail = p;
++hc;
}
}
// 如果小于等于红黑树转链表的个数,把红黑树转链表。否则构建新的红黑树
ln = (lc <= UNTREEIFY_THRESHOLD) ? untreeify(lo) :
(hc != 0) ? new TreeBin<K,V>(lo) : t;
hn = (hc <= UNTREEIFY_THRESHOLD) ? untreeify(hi) :
(lc != 0) ? new TreeBin<K,V>(hi) : t;
// 以下与链表的处理一样
setTabAt(nextTab, i, ln);
setTabAt(nextTab, i + n, hn);
setTabAt(tab, i, fwd);
advance = true;
}
}
}
}
}
}
3.3.4.5.1高低位原理分析
扩容后,节点重 hash 为什么只可能分布在 “原索引位置” 与 “原索引 + oldLength位置” ?
扩容代码中,使用 e 节点的 hash 值跟 oldLength进行位与运算,以此决定将节点分布到 “原索引位置” 或者 “原索引 + oldLength位置” 上,这是为什么了?
假设老表的容量为 16,即 oldLength= 16,则新表容量为 16 * 2 = 32,假设节点 1 的 hash 值为:0000 0000 0000 0000 0000 1111 0000 1010,节点 2 的 hash 值为:0000 0000 0000 0000 0000 1111 0001 1010,则节点 1 和节点 2 在老表的索引位置计算如下图,由于老表的长度限制,节点 1 和节点 2 的索引位置只取决于节点 hash 值的最后 4 位。
再看计算2,计算2为新表的索引计算,可以知道如果两个节点在老表的索引位置相同,则新表的索引位置只取决于节点hash值倒数第5位的值,而此位置的值刚好为老表的容量值 16,此时节点在新表的索引位置只有两种情况:“原索引位置” 和 “原索引 + oldLength位置”,在此例中即为 10 和 10 + 16 = 26。
由于结果只取决于节点 hash 值的倒数第 5 位,而此位置的值刚好为老表的容量值 16,因此此时新表的索引位置的计算可以替换为计算3,直接使用节点的 hash 值与老表的容量 16 进行位于运算,如果结果为 0 则该节点在新表的索引位置为原索引位置,否则该节点在新表的索引位置为 “原索引 + oldLength位置”。
3.4 helpTransfer协助扩容
如果对应的节点存在,判断这个节点的 hash 是不是等于 MOVED(-1),说明当前节点是ForwardingNode 节点,意味着有其他线程正在进行扩容,那么当前现在直接帮助它进行扩容,因此调用 helpTransfer方法。
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
final Node<K,V>[] helpTransfer(Node<K,V>[] tab, Node<K,V> f) {
Node<K,V>[] nextTab; int sc;
// 只有f的hash为MOVED,才会执行该方法,说明f节点是ForwardingNode
// 如果nextTable为null,则表示迁移完成了,详见transfer()
// 三个判断条件判断的是扩容是否结束,ForwardingNode再创建时持有nextTable数组的引用,
// nextTable会在扩容结束后被置为null。
if (tab != null && (f instanceof ForwardingNode) &&
(nextTab = ((ForwardingNode<K,V>)f).nextTable) != null) {
// 本次扩容的标识,数组大小不变则rs不变
int rs = resizeStamp(tab.length);
// 循环的这些判断条件为tue的话表明扩容未结束,扩容时sizeCtl小于0
while (nextTab == nextTable && table == tab &&
(sc = sizeCtl) < 0) {
// 扩容已经结束,中断循环
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || transferIndex <= 0)
break;
// 每有一个线程来帮助迁移,sizeCtl就+1,初始值为(rs << RESIZE_STAMP_SHIFT) + 2)
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1)) {
transfer(tab, nextTab);
break;
}
}
return nextTab;
}
return table;
}
3.5 添加节点
前面put的时候,大概加了注释。并没有详细分析
// 进入到这个分支,说明 f 是当前 nodes 数组对应位置节点的头节点,并且不为空
else {
V oldVal = null;
// 给对应的头结点加锁
synchronized (f) {
// 再次判断对应下标位置是否为 f 节点
if (tabAt(tab, i) == f) {
// 头结点的 hash 值大于 0,说明是链表
if (fh >= 0) {
// 用来记录链表的长度
binCount = 1;
// 遍历链表
for (Node<K,V> e = f;; ++binCount) {
K ek;
// 如果发现相同的 key,则判断是否需要进行值的覆盖
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
oldVal = e.val;
if (!onlyIfAbsent)
e.val = value;
break;
}
Node<K,V> pred = e;
// 一直遍历到链表的最末端,直接把新的值加入到链表的最后面
if ((e = e.next) == null) {
pred.next = new Node<K,V>(hash, key,
value, null);
break;
}
}
}
// 如果当前的 f 节点是一颗红黑树,与HashMap类似。具体可以参考HashMap
// 与HashMap不同的是,hashMap的bucket直接放置的是TreeNode
// 而ConcurrentHashMap放置的是TreeBin里面维护TreeNode组成的红黑树,此时Treebin的hash值为-2
// 这里就可以解释为什么头结点的 hash 值大于 0,说明是链表
else if (f instanceof TreeBin) {
Node<K,V> p;
binCount = 2;
if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,
value)) != null) {
oldVal = p.val;
if (!onlyIfAbsent)
p.val = value;
}
}
}
}
if (binCount != 0) {
// 如果链表长度已经达到临界值 8 就需要把链表转换为树结构
if (binCount >= TREEIFY_THRESHOLD)
treeifyBin(tab, i);
if (oldVal != null)
return oldVal;
break;
}
}
3.6treeifyBin链表转为红黑树
private final void treeifyBin(Node<K,V>[] tab, int index) {
Node<K,V> b; int n, sc;
if (tab != null) {
//tab 的长度是不是小于 64,如果是,则执行扩容
if ((n = tab.length) < MIN_TREEIFY_CAPACITY)
tryPresize(n << 1);
else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {
// 将链表转换成红黑树。加锁,与put,transfer是同一把锁,说明这三个动作是互斥的
// 不在put里面的synchronized范围内
synchronized (b) {
if (tabAt(tab, index) == b) {
TreeNode<K,V> hd = null, tl = null;
for (Node<K,V> e = b; e != null; e = e.next) {
TreeNode<K,V> p =
new TreeNode<K,V>(e.hash, e.key, e.val,
null, null);
if ((p.prev = tl) == null)
hd = p;
else
tl.next = p;
tl = p;
}
setTabAt(tab, index, new TreeBin<K,V>(hd));
}
}
}
}
}
3.6.1tryPresize扩容
tryPresize 里面部分代码和 addCount 的部分代码类似,看起来会稍微简单一些
private final void tryPresize(int size) {
//对 size 进行修复,主要目的是防止传入的值不是一个 2 次幂的整数,然后通过tableSizeFor 来讲入参转化为离该整数最近的 2 次幂
int c = (size >= (MAXIMUM_CAPACITY >>> 1)) ? MAXIMUM_CAPACITY :
tableSizeFor(size + (size >>> 1) + 1);
int sc;
while ((sc = sizeCtl) >= 0) {
Node<K,V>[] tab = table; int n;
// 下面这段代码和 initTable 是一样的,如果 table 没有初始化,则开始初始化
if (tab == null || (n = tab.length) == 0) {
n = (sc > c) ? sc : c;
if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
try {
if (table == tab) {
@SuppressWarnings("unchecked")
Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
table = nt;
sc = n - (n >>> 2);
}
} finally {
sizeCtl = sc;
}
}
}
else if (c <= sc || n >= MAXIMUM_CAPACITY)
break;
// 这段代码和 addCount 后部分代码是一样的,做辅助扩容操作
else if (tab == table) {
int rs = resizeStamp(n);
if (sc < 0) {
Node<K,V>[] nt;
if ((sc >>> RESIZE_STAMP_SHIFT) != rs || sc == rs + 1 ||
sc == rs + MAX_RESIZERS || (nt = nextTable) == null ||
transferIndex <= 0)
break;
if (U.compareAndSwapInt(this, SIZECTL, sc, sc + 1))
transfer(tab, nt);
}
else if (U.compareAndSwapInt(this, SIZECTL, sc,
(rs << RESIZE_STAMP_SHIFT) + 2))
transfer(tab, null);
}
}
}
3.7get操作
get方法比较简单,给定一个key来确定value的时候,必须满足两个条件 key相同 hash值相同,对于节点可能在链表或树上的情况,需要分别去查找.
public V get(Object key) {
Node<K,V>[] tab; Node<K,V> e, p; int n, eh; K ek;
// 计算hash值
int h = spread(key.hashCode());
// 根据hash值计算结点的位置
if ((tab = table) != null && (n = tab.length) > 0 &&
(e = tabAt(tab, (n - 1) & h)) != null) {
// 先尝试判断链表头是否为目标,如果是就直接返回
if ((eh = e.hash) == h) {
if ((ek = e.key) == key || (ek != null && key.equals(ek)))
return e.val;
}
else if (eh < 0)
// eh < 0代表这是一个特殊节点(TreeBin或ForwardingNode)
// 所以直接调用find()进行遍历查找
return (p = e.find(h, key)) != null ? p.val : null;
// 遍历链表
while ((e = e.next) != null) {
if (e.hash == h &&
((ek = e.key) == key || (ek != null && key.equals(ek))))
return e.val;
}
}
return null;
}
3.8remove移除元素
删除元素,新增元素,扩容时元素转移及链表转红黑树时,都要对所在的bucker进行synchronized同步操作,以保证并发安全性。
public V remove(Object key) {
return replaceNode(key, null, null);
}
final V replaceNode(Object key, V value, Object cv) {
int hash = spread(key.hashCode());
for (Node<K,V>[] tab = table;;) {
Node<K,V> f; int n, i, fh;
// 桶位为空,跳过
if (tab == null || (n = tab.length) == 0 ||
(f = tabAt(tab, i = (n - 1) & hash)) == null)
break;
// 删除时正在扩容,先协助扩容
else if ((fh = f.hash) == MOVED)
tab = helpTransfer(tab, f);
else {
V oldVal = null;
boolean validated = false;
// 加锁删除,与put,transfer,treeifyBin是同一把锁,说明是互斥的
synchronized (f) {
if (tabAt(tab, i) == f) {
// 链表删除
if (fh >= 0) {
validated = true;
for (Node<K,V> e = f, pred = null;;) {
K ek;
if (e.hash == hash &&
((ek = e.key) == key ||
(ek != null && key.equals(ek)))) {
V ev = e.val;
if (cv == null || cv == ev ||
(ev != null && cv.equals(ev))) {
oldVal = ev;
if (value != null)
e.val = value;
// 非链表头节点,直接删除该节点
else if (pred != null)
pred.next = e.next;
// 更新链表头节点
else
setTabAt(tab, i, e.next);
}
break;
}
pred = e;
if ((e = e.next) == null)
break;
}
}
// 红黑树删除
else if (f instanceof TreeBin) {
validated = true;
TreeBin<K,V> t = (TreeBin<K,V>)f;
TreeNode<K,V> r, p;
if ((r = t.root) != null &&
(p = r.findTreeNode(hash, key, null)) != null) {
V pv = p.val;
if (cv == null || cv == pv ||
(pv != null && cv.equals(pv))) {
oldVal = pv;
if (value != null)
p.val = value;
else if (t.removeTreeNode(p))
setTabAt(tab, i, untreeify(t.first));
}
}
}
}
}
if (validated) {
if (oldVal != null) {
if (value == null)
// 更新元素的个数
addCount(-1L, -1);
return oldVal;
}
break;
}
}
}
return null;
}