好久没写过博客了,一直都在忙于业务方向,今天就抽点时间写一下HashMap的实现,hashMap是开发中最常用的kay-value数据存储集合,JDK7它是基于数组和链表,JDK8它是基于数组和链表和红黑树实现,下面会贴代码实现过程,
先谈一下,个人看法,为什么会基于数据和链表来实现而不是直接通过数组就能实现;首先hashMap是基于key的hashCode实现的,相同的对象,hashCode一定相同;hashCode相同,对象不一定相同;不同的类,我们重写他的hashCode,那么他们实例出来的对象的HashCode相同,但是它们是不同的对象;所以hashMap会把相同HashCode的key放成链表,例外一方面就是数组初始化必须是固定长度,当数据过长时,就是重新创建数组,然后把之前的数组的数据copy到新的数组,这样会浪费性能;当然HashMap不会直接把key的HashCode当成key来存储,不然会导致数组很长,而是通过(n -1) & hash和(key.hashCode()) ^ (h >>>16)来存储可以在数组中的位置,这里n是数组的长度,hash=(key.hashCode()) ^ (h >>>16) ,这里(n -1) & hash表明不能超过数组长度,(key.hashCode()) ^ (h >>>16)这里hashCode按位异或hashCode向又无符号右移16位是为了防止hash集中化
hashMap不是线程安全的,相对线程安全的有hashTable,ConcurrentHashMap;这两个类又有一点区别,hashTable锁住put整个方法实现线程安全,性能相对下降,导致性能不如ConcurrentHashMap,ConcurrentHashMap在JDK7中使用分段锁实现数据插入,在JDK8中通过CAS和synchronized锁住数据插入代码实现
当JDK8中为啥会引用红黑树,当链表大于7时,hashMap会将当前链表转换成红黑树,链表过长,查询性能不好,不过个人感觉hashMap在插入红黑树的时候,也没有做到完全的数平衡。
HashMap 默认初始化容量16,加载因子为0.75 threshold=容量*加载因子
下面是插入过程
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0) //第一次进来 因为这里没有锁所以可能有很多线程进入if块
n = (tab = resize()).length;//初始化数组
if ((p = tab[i = (n - 1) & hash]) == null) //取当前的hashcode (h = key.hashCode()) ^ (h >>> 16)进行运算,并与数组长度-1确定数组坐标
tab[i] = newNode(hash, key, value, null); //创建数据结构 node 并存储数组,未加锁,容易导致数据覆盖
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))//这里不仅仅要判断hash相等,还要判断key相同
e = p;//取对应的值
else if (p instanceof TreeNode)
//这里是判断当前节点是不是红黑树,如果是红黑树,就进入树的插入流程
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) { //进行链表插入
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
//TREEIFY_THRESHOLD=8 当链表长度大于7时就会把链表转成红黑树
treeifyBin(tab, hash);
break;
}
//当在链表中找到相同的hash和key时就退出循环
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
//给p赋值,便于下一次便利
p = e;
}
}
//最后e保存了插入的node或者找到的node,根据onlyIfAbsent或者value判断是否覆盖key的value并返回原来的值
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
//修改之后,调用该方法,提供通用接口,目前有LinkedHashMap调用,
afterNodeAccess(e);
return oldValue;
}
}
//保存插入次数,并判断扩容threshold=容量*加载因子、
//从上面可以看出如果当前容器中e找到,那么就不会执行这里,容器就不会去判断容量,每执行一次size就会增加,
//那么在多线程下,肯定是不安全
//会导致size最终加的不准,影响扩容,
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
写了一个多小时了,就写到这里了,扩容过程resize()过程比较简单就不写了,后面会陆续加上红黑树插入过程。