HashMap实现

227 阅读4分钟

好久没写过博客了,一直都在忙于业务方向,今天就抽点时间写一下HashMap的实现,hashMap是开发中最常用的kay-value数据存储集合,JDK7它是基于数组和链表,JDK8它是基于数组和链表和红黑树实现,下面会贴代码实现过程,

先谈一下,个人看法,为什么会基于数据和链表来实现而不是直接通过数组就能实现;首先hashMap是基于key的hashCode实现的,相同的对象,hashCode一定相同;hashCode相同,对象不一定相同;不同的类,我们重写他的hashCode,那么他们实例出来的对象的HashCode相同,但是它们是不同的对象;所以hashMap会把相同HashCode的key放成链表,例外一方面就是数组初始化必须是固定长度,当数据过长时,就是重新创建数组,然后把之前的数组的数据copy到新的数组,这样会浪费性能;当然HashMap不会直接把key的HashCode当成key来存储,不然会导致数组很长,而是通过(n -1) & hash和(key.hashCode()) ^ (h >>>16)来存储可以在数组中的位置,这里n是数组的长度,hash=(key.hashCode()) ^ (h >>>16) ,这里(n -1) & hash表明不能超过数组长度,(key.hashCode()) ^ (h >>>16)这里hashCode按位异或hashCode向又无符号右移16位是为了防止hash集中化

hashMap不是线程安全的,相对线程安全的有hashTable,ConcurrentHashMap;这两个类又有一点区别,hashTable锁住put整个方法实现线程安全,性能相对下降,导致性能不如ConcurrentHashMap,ConcurrentHashMap在JDK7中使用分段锁实现数据插入,在JDK8中通过CAS和synchronized锁住数据插入代码实现

当JDK8中为啥会引用红黑树,当链表大于7时,hashMap会将当前链表转换成红黑树,链表过长,查询性能不好,不过个人感觉hashMap在插入红黑树的时候,也没有做到完全的数平衡。

HashMap 默认初始化容量16,加载因子为0.75 threshold=容量*加载因子

下面是插入过程

 final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0) //第一次进来 因为这里没有锁所以可能有很多线程进入if块
            n = (tab = resize()).length;//初始化数组
        if ((p = tab[i = (n - 1) & hash]) == null) //取当前的hashcode  (h = key.hashCode()) ^ (h >>> 16)进行运算,并与数组长度-1确定数组坐标
            tab[i] = newNode(hash, key, value, null); //创建数据结构 node 并存储数组,未加锁,容易导致数据覆盖
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))//这里不仅仅要判断hash相等,还要判断key相同
                e = p;//取对应的值
            else if (p instanceof TreeNode)
                //这里是判断当前节点是不是红黑树,如果是红黑树,就进入树的插入流程
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) { //进行链表插入
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            //TREEIFY_THRESHOLD=8 当链表长度大于7时就会把链表转成红黑树
                            treeifyBin(tab, hash);
                        break;
                    }
                    //当在链表中找到相同的hash和key时就退出循环
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                        //给p赋值,便于下一次便利
                    p = e;
                }
            }
            //最后e保存了插入的node或者找到的node,根据onlyIfAbsent或者value判断是否覆盖key的value并返回原来的值
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                    //修改之后,调用该方法,提供通用接口,目前有LinkedHashMap调用,
                afterNodeAccess(e);
                return oldValue;
            }
        }
        //保存插入次数,并判断扩容threshold=容量*加载因子、
        //从上面可以看出如果当前容器中e找到,那么就不会执行这里,容器就不会去判断容量,每执行一次size就会增加,
        //那么在多线程下,肯定是不安全
        //会导致size最终加的不准,影响扩容,
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

写了一个多小时了,就写到这里了,扩容过程resize()过程比较简单就不写了,后面会陆续加上红黑树插入过程。