Java HashSet

200 阅读1分钟

HashSet

哈希表

哈希表组成

  • JDK8之前:数组+链表

  • JDK8开始:数组+链表+红黑树

哈希值

  • 对象的整数表现形式
  • 根据hashCode方法算出来的int类型的整数
  • 该方法定义在Object类中,所有对象都可以调用,默认使用地址值进行计算
  • 一般情况下,会重写hashCode方法,利用对象内部的属性值计算哈希值

对象的哈希值特点

  • 如果没有重写hashCode方法,不同对象计算出的哈希值是不同的

  • 如果已经重写hashCode方法,不同的对象只要属性值相同,计算出来的哈希值就是一样的

  • 在小部分情况下,不同的属性值或者不同的地址值计算出来的哈希值也有可能一样(哈希碰撞)

底层原理

  • HashSet集合底层采取哈希表存储数据
  • 哈希表是一种对于增删改查数据性能都较好的结构
  • 如果集合中存储的是自定义对象,必须要重写hashDode和equals方法
HashSet<String> hm = new HashSet<>();
  • 创建一个默认长度16,默认加载因子0.75的数组,数组名table

Snipaste_2022-11-06_17-59-31.png

  • 根据元素的哈希值跟数组的长度计算出应存入的位置
int index = (数组长度 - 1) & 哈希值;
  • 判断当前位置是否为null,如果是null直接存入
  • 如果位置不为null,表示有元素,则调用equals方法比较属性值
    • 一样:不存
    • 不一样:存入数组,形成链表
      • JDK8以前:新元素存入数组,老元素挂在新元素下面
      • JDK8以后:新元素直接挂在老元素下面
  • 扩容机制
    • 当数组中存储的元素个数为 当前数组长度 * 默认加载因子 时,数组扩容为原来的两倍
    • JDK8以后:当链表长度大于8而且数组长度大于等于64时,当前链表会转成红黑树
      • 泊松分布解释了为什么链表长度到8个变红黑树。 因为在扩容因子为0.75的情况下,根据泊松分布链表到达8个的概率非常小,这样不会频繁的把链表变为红黑树造成很大的性能消耗,同时也能解决特殊情况下链表长度到达8个后log(n)的低性能

Snipaste_2022-11-06_18-36-07.png

源码

//构造
public HashSet() {
    map = new HashMap<>();
}

//add方法
public boolean add(E e) {
    return map.put(e, PRESENT) == null;
}