Java HashSet

2022-11-19 200 阅读1分钟

HashSet

哈希表

哈希表组成

JDK8之前：数组+链表
JDK8开始：数组+链表+红黑树

哈希值

对象的整数表现形式
根据hashCode方法算出来的int类型的整数
该方法定义在Object类中，所有对象都可以调用，默认使用地址值进行计算
一般情况下，会重写hashCode方法，利用对象内部的属性值计算哈希值

对象的哈希值特点

如果没有重写hashCode方法，不同对象计算出的哈希值是不同的
如果已经重写hashCode方法，不同的对象只要属性值相同，计算出来的哈希值就是一样的
在小部分情况下，不同的属性值或者不同的地址值计算出来的哈希值也有可能一样（哈希碰撞）

底层原理

HashSet集合底层采取哈希表存储数据
哈希表是一种对于增删改查数据性能都较好的结构
如果集合中存储的是自定义对象，必须要重写hashDode和equals方法

HashSet<String> hm = new HashSet<>();

创建一个默认长度16，默认加载因子0.75的数组，数组名table

根据元素的哈希值跟数组的长度计算出应存入的位置

int index = (数组长度 - 1) & 哈希值;

判断当前位置是否为null，如果是null直接存入
如果位置不为null，表示有元素，则调用equals方法比较属性值
- 一样：不存
- 不一样：存入数组，形成链表
  - JDK8以前：新元素存入数组，老元素挂在新元素下面
  - JDK8以后：新元素直接挂在老元素下面
扩容机制
- 当数组中存储的元素个数为当前数组长度 * 默认加载因子时，数组扩容为原来的两倍
- JDK8以后：当链表长度大于8而且数组长度大于等于64时，当前链表会转成红黑树
  - 泊松分布解释了为什么链表长度到8个变红黑树。因为在扩容因子为0.75的情况下，根据泊松分布链表到达8个的概率非常小，这样不会频繁的把链表变为红黑树造成很大的性能消耗，同时也能解决特殊情况下链表长度到达8个后log(n)的低性能

源码

//构造
public HashSet() {
    map = new HashMap<>();
}

//add方法
public boolean add(E e) {
    return map.put(e, PRESENT) == null;
}