hashCode() 和 equals()

210 阅读6分钟

定义

hashCode() 的作用是获取哈希码,也称为散列码;它实际上是返回一个int整数。这个哈希码的作用是确定该对象在哈希表中的索引位置。hashCode() 定义在JDK的Object.java中,这就意味着Java中的任何类都包含有hashCode() 函数。

equals() 的作用也是判断两个对象是否相等,如果对象重写了equals()方法,比较两个对象的内容是否相等;如果没有重写,比较两个对象的地址是否相同,价于“==”。同样的,equals()定义在JDK的Object.java中,这就意味着Java中的任何类都包含有equals()函数。

关系

  • 如果不在HashSet, HashTable, HashMap等等这些本质是散列表的数据结构中用到该类,则hashCode() 和 equals()没任何关系
  • 如果在HashSet, HashTable, HashMap等等这些本质是散列表的数据结构中用到该类,则两者产生关联,并遵循一下原则:
    • 如果两个对象相等,那么它们的hashCode()值一定相同。这里的相等是指,通过equals()比较两个对象时返回true。
    • 如果两个对象hashCode()相等,它们并不一定相等。因为在散列表中,hashCode()相等,即两个键值对的哈希值相等。然而哈希值相等,并不一定能得出键值对相等,此时就出现所谓的哈希冲突场景。

举例 HashSet

  • HashSet是符合判断元素是否存在的呢?equals已经可以判断是否相等了,为什么还要hashcode?

  • 答:equals方法可用于保证元素不重复,但是,如果每增加一个元素就检查一次,如果集合中现在已经有1000个元素,那么第1001个元素加入集合时,就要调用1000次equals方法。这显然会大大降低效率。

    于是,Java采用了哈希表的原理。

    哈希算法也称为散列算法,是将数据依特定算法直接指定到一个地址上。这样一来,当集合要添加新的元素时,先调用这个元素的HashCode方法,就一下子能定位到它应该放置的物理位置上。
    (1)如果这个位置上没有元素,它就可以直接存储在这个位置上,不用再进行任何比较了;
    (2)如果这个位置上已经有元素了,就调用它的equals方法与新元素进行比较,相同的话就不存了;
    (3)不相同的话,也就是发生了Hash key相同导致冲突的情况,那么就在这个Hash key的地方产生一个链表,将所有产生相同HashCode的对象放到这个单链表上去,串在一起(很少出现)。这样一来实际调用equals方法的次数就大大降低了,几乎只需要一两次。

  • 查看源码

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // 判断数组是否为空,长度是否为0,是则进行扩容数组初始化
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    // 通过hash算法找到数组下标得到数组元素,为空则新建
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        // 找到数组元素,hash相等同时key相等,则直接覆盖
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        // 该数组元素在链表长度>8后形成红黑树结构的对象,p为树结构已存在的对象
        elseif (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            // 该数组元素hash相等,key不等,同时链表长度<8.进行遍历寻找元素,有就覆盖无则新建
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    // 新建链表中数据元素,尾插法
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        // 链表长度>=8 结构转为 红黑树
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        // 新值覆盖旧值
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            // onlyIfAbsent默认false
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    // 判断是否需要扩容
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    returnnull;
}
  • 流程图

  • 基本过程如下:

    检查数组是否为空,执行 resize()扩充;在实例化 HashMap 时,并不会进行初始化数组)
    
    通过 hash 值计算数组索引,获取该索引位的首节点。
    
    如果首节点为 null(没发生碰撞),则创建新的数组元素,直接添加节点到该索引位(bucket)。
    
    如果首节点不为 null(发生碰撞),那么有 3 种情况
    
    ① key 和首节点的 key 相同,覆盖 old value(保证 key 的唯一性);否则执行 ② 或 ③
    
    ② 如果首节点是红黑树节点(TreeNode),将键值对添加到红黑树。
    
    ③ 如果首节点是链表,进行遍历寻找元素,有就覆盖无则新建,将键值对添加到链表。
    添加之后会判断链表长度是否到达 TREEIFY_THRESHOLD - 1 这个阈值,“尝试”将链表转换成红黑树。
    
    最后判断当前元素个数是否大于 threshold,扩充数组。
    

可以看出,hashSet使用的是hashMap的put方法,而hashMap的put方法,使用hashCode()用key作为参数计算出hash值,然后进行比较,如果相同,再通过equals()比较key值是否相同,如果相同,返回同一个对象。 所以,如果类使用再散列表的集合对象中,要判断两个对象是否相同,除了要覆盖equals()之外,也要覆盖hashCode()函数。否则,equals()无效。

如何产生好的hashcode呢?

一个好的hashCode的方法的目标:为不相等的对象产生不相等的散列码,同样的,相等的对象必须拥有相等的散列码。

如果对象的equals方法被重写,那么对象的HashCode也尽量重写,并且产生HashCode使用的对象,一定要和equals方法中使用的一致

1、把某个非零的常数值,比如17,保存在一个int型的result中;

2、对于每个关键域f(equals方法中设计到的每个域),作以下操作:

a.为该域计算int类型的散列码;

i.  如果该域是boolean类型,则计算(f?1:0),   
ii. 如果该域是byte,char,short或者int类型,计算(int)f,  
iii.如果是long类型,计算(int)(f^(f>>>32)).  
iv.如果是float类型,计算Float.floatToIntBits(f).  
v.如果是double类型,计算Double.doubleToLongBits(f),然后再计算long型的hash值  
vi.如果是对象引用,则递归的调用域的hashCode,如果是更复杂的比较,则需要为这个域计算一个范式,然后针对范式调用hashCode,如果为null,返回0  
vii. 如果是一个数组,则把每一个元素当成一个单独的域来处理。  

b.result = 31 * result + c;

3、返回result
4、编写单元测试验证有没有实现所有相等的实例都有相等的散列码。

这里再说下2.b中为什么采用31*result + c,乘法使hash值依赖于域的顺序,如果没有乘法那么所有顺序不同的字符串String对象都会有一样的hash值,
而31是一个奇素数,如果是偶数,并且乘法溢出的话,信息会丢失,31有个很好的特性是31*i ==(i<<5)-i,即2的5次方减1,虚拟机会优化乘法操作为移位操作的。

参考并感谢

blog.csdn.net/u012954706/…
www.cnblogs.com/justdojava/… mp.weixin.qq.com/s/ugBm-koAp…