今天写每日一题时,看到题解用到了HashSet。之前数据结构学习的时候并没有区别这三者,于是在这里做一个整理。
是Leetcode上的这题720. 词典中最长的单词,等我写完题解也会把题解再贴上来。
Java中HashSet、HashMap和HashTable的区别
1.官方文档对这三者的介绍
英语能力好的同学可以直接看jdk api的官网文档,上面有很详细的示例以及方法Hashtable,HashMap和HashSet。
java发展过程中三者出现的时间顺序是Hashtable->HashMap->HashSet。
1.1 Hashtable
从官网中的
public class Hashtable<K,V>
extends Dictionary<K,V>
implements Map<K,V>, Cloneable, Serializable
可以看出Hashtable是原始的java.util的一部分, 是一个Dictionary具体的实现 ,同时还实现了Map接口以及接口的可克隆化和序列化。
可克隆化简而言之就是可以通过等号克隆一个一模一样的。
序列化简而言之就是在进行IO操作时将对象数据转换为字节流,之后将字节流数据转换为特定的对象。
具体的实现可以去官方的超链接看。
很明显Hashtable类实现了哈希表,可以将键和值进行对应。Hashtable支持同步,但不支持空值。由于其同步特性,它是线程安全的。
1.2 HashMap
按照时间顺序,现在轮到了HashMap。
public class HashMap<K,V>
extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable
我们可以看到HashMap是从AbstractMap继承的,同样也实现了Map接口以及接口的可克隆化和序列化。
HashMap和Hashtable功能基本相同,但是
1.3 HashSet
public class HashSet
extends AbstractSet
implements Set, Cloneable, Serializable
HashSet继承于AbstractSet并且实现了Set接口,但是HashSet是基于HashMap来实现的,是一个不允许有重复元素的集合。
HashMap允许空值,而HashSet也允许有空值。
HashSet 不是线程安全的, 如果多个线程尝试同时修改 HashSet,则最终结果是不确定的。 您必须在多线程访问时显式同步对 HashSet 的并发访问。
2.三者之间的区别
2.1 Hashtable和HashMap的区别。
主要区别:线程安全性,空值,同步(synchronization),以及速度。
1. Hashtable是线程安全,而HashMap则非线程安全.
Hashtable的实现方法里面都添加了synchronized关键字来确保线程同步,因此相对而言HashMap性能会高一些,我们平时使用时若无特殊需求建议使用HashMap,在多线程环境下若使用HashMap需要使用Collections.synchronizedMap()方法来获取一个线程安全的集合。
(Collections.synchronizedMap()实现原理是Collections定义了一个SynchronizedMap的内部类,这个类实现了Map接口,在调用方法时使用synchronized来保证线程同步,当然了实际上操作的还是我们传入的HashMap实例,简单的说就是Collections.synchronizedMap()方法帮我们在操作HashMap时自动添加了synchronized来实现线程同步,类似的其它Collections.synchronizedXX方法也是类似原理)
2. HashMap可以使用null作为key,而Hashtable则不允许null作为key
虽说HashMap支持null值作为key,不过建议还是尽量避免这样使用,因为一旦不小心使用了,若因此引发一些问题,排查起来很是费事
HashMap以null作为key时,总是存储在table数组的第一个节点上
3. HashMap是对Map接口的实现,HashTable实现了Map接口和Dictionary抽象类
4. HashMap的初始容量为16,Hashtable初始容量为11,两者的填充因子默认都是0.75
HashMap扩容时是当前容量翻倍即:capacity2,
Hashtable扩容时是容量翻倍+1即:capacity2+1
5.两者计算hash的方法不同
Hashtable计算hash是直接使用key的hashcode对table数组的长度直接进行取模
int hash = key.hashCode();
int index = (hash & 0x7FFFFFFF) % tab.length;
HashMap计算hash对key的hashcode进行了二次hash,以获得更好的散列值,然后对table数组长度取模。
static int hash(int h) {
// This function ensures that hashCodes that differ only by
// constant multiples at each bit position have a bounded
// number of collisions (approximately 8 at default load factor).
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
static int indexFor(int h, int length) {
return h & (length-1);
}
从这里看出HashMap会比Hashtable更实用一些。
6.HashMap和Hashtable的底层实现都是数组+链表结构实现
2.2 HashSet和HashMap、Hashtable的区别
除开HashMap和Hashtable外,还有一个hash集合HashSet,有所区别的是HashSet不是key value结构,仅仅是存储不重复的元素,相当于简化版的HashMap,只是包含HashMap中的key而已。
通过查看源码也证实了这一点,HashSet内部就是使用HashMap实现,只不过HashSet里面的HashMap所有的value都是同一个Object而已,因此HashSet也是非线程安全的,至于HashSet和Hashtable的区别,HashSet就是个简化的HashMap的。
对于 HashSet 而言,系统采用 Hash 算法决定集合元素的存储位置,这样可以保证能快速存、取集合元素;对于 HashMap 而言,系统 key-value 当成一个整体进行处理,系统总是根据 Hash 算法来计算 key-value 的存储位置,这样可以保证能快速存、取 Map 的 key-value 对。