HashSet
哈希表
哈希表组成
-
JDK8之前:数组+链表
-
JDK8开始:数组+链表+红黑树
哈希值
- 对象的整数表现形式
- 根据hashCode方法算出来的int类型的整数
- 该方法定义在Object类中,所有对象都可以调用,默认使用地址值进行计算
- 一般情况下,会重写hashCode方法,利用对象内部的属性值计算哈希值
对象的哈希值特点
-
如果没有重写hashCode方法,不同对象计算出的哈希值是不同的
-
如果已经重写hashCode方法,不同的对象只要属性值相同,计算出来的哈希值就是一样的
-
在小部分情况下,不同的属性值或者不同的地址值计算出来的哈希值也有可能一样(哈希碰撞)
底层原理
- HashSet集合底层采取哈希表存储数据
- 哈希表是一种对于增删改查数据性能都较好的结构
- 如果集合中存储的是自定义对象,必须要重写hashDode和equals方法
HashSet<String> hm = new HashSet<>();
- 创建一个默认长度16,默认加载因子0.75的数组,数组名table
- 根据元素的哈希值跟数组的长度计算出应存入的位置
int index = (数组长度 - 1) & 哈希值;
- 判断当前位置是否为null,如果是null直接存入
- 如果位置不为null,表示有元素,则调用equals方法比较属性值
- 一样:不存
- 不一样:存入数组,形成链表
- JDK8以前:新元素存入数组,老元素挂在新元素下面
- JDK8以后:新元素直接挂在老元素下面
- 扩容机制
- 当数组中存储的元素个数为 当前数组长度 * 默认加载因子 时,数组扩容为原来的两倍
- JDK8以后:当链表长度大于8而且数组长度大于等于64时,当前链表会转成红黑树
- 泊松分布解释了为什么链表长度到8个变红黑树。 因为在扩容因子为0.75的情况下,根据泊松分布链表到达8个的概率非常小,这样不会频繁的把链表变为红黑树造成很大的性能消耗,同时也能解决特殊情况下链表长度到达8个后log(n)的低性能
源码
//构造
public HashSet() {
map = new HashMap<>();
}
//add方法
public boolean add(E e) {
return map.put(e, PRESENT) == null;
}