Java三十二篇: 哈希表

平安春运
1.概念
哈希表(Hash table,也叫散列表):
是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。
给定表M,存在函数f(key),对任意给定的关键字值key,代入函数后若能得到包含该关键字的记录在表中的地址,则称表M为哈希(Hash)表,函数f(key)为哈希(Hash) 函数。
哈希表的本质上上一个数组(元素是Entry)
这里的 id 是个key,哈希表就是根据key值来通过哈希函数计算得到一个值,这个值就是用来确定这个Entry要存放在哈希表中的位置的,实际上这个值就是一个下标值,来确定放在数组的哪个位置上
比如这里的 id 是001,那么经过哈希函数的计算之后得到了1,这个1就是告诉我们应该把这个Entry放到哪个位置,这个1就是数组的确切位置的下标,也就是需要放在数组中下表为1的位置

Hash Table的查询速度非常的快,几乎是O(1)的时间复杂度
hash就是找到一种数据内容和数据存放地址之间的映射关系
散列法:元素特征转变为数组下标的方法
优点:
不论哈希表中有多少数据,查找、插入、删除(有时包括删除)时间接近常量的时间即0(1)的时间级
缺点:
它是基于数组的,数组创建后难于扩展,某些哈希表被基本填满时,性能下降得非常严重,所以程序员必须要清楚表中将要存储多少数据
2.哈希函数的构造方法
2.1 直接定制法(不常用)
取关键字或关键字的某个线性函数值为哈希地址 即, H(key) = key H(key) = a * key + b
优点:简单,均匀,不会产生冲突 缺点:需要实现直到关键字的分布情况,适合查找表比较小且连续的情况
2.2 数字分析法
数字分析法用于处理关键字是位数比较多的数字,通过抽取关键字的一部分进行操作,计算哈希存储位置的方法
例:
身份证号是有规律的,现在要存储一个班级学生的身份证号码,假设这个班级的学生都出生在同一个地区,同一年,那么他们的身份证的前面数位都是相同的,那么我们可以截取后面不同的几位存储,假设有5位不同,那么就用这五位代表地址
适用场景:
处理关键字位数比较大的情况,事先知道关键字的分布且关键字的若干位分布均匀
2.3 平方取中法
先对关键字取平方,然后选取中间几位为哈希地址,取的位数由表长决定
例:key=1234 1234^2=1522756 取227作hash地址 key=4321 4321^2=18671041 取671作hash地址
适用场景:不知道关键字的分布,而位数又不是很大的情况
2.4 折叠法
如果数字的位数很多,可以将数字分割为几个部分,取他们的叠加和作为hash地址
例:key=123 456 789 可以存储在61524,取末三位,存在524的位置
适用场景:关键字位数很多,而且关键字每一位上数字分布大致均匀
2.5 除留余数法(用的较多)
H(key)=key MOD p (p<=m m为表长)
例:存储3 6 9,那么p就不能取3 因为 3 MOD 3 == 6 MOD 3 == 9 MOD 3,地址冲突
一般来说,p应为不大于m的质数或是不含20以下的质因子的合数,这样可以减少地址的重复(冲突)
2.6 随机数法
选择一个随机数,取关键字的随机函数值作为他的哈希地址 即,f(key) = random (key)
适合场景:关键字的长度不等时。当遇到特殊字符的关键字时,需要将其转换为某种数字
3.哈希冲突及解决方式
哈希冲突图例:

3.1 开放寻址法
H(key)的哈希函数:
H(key1)= H(keyi)
那么 keyi 存储位置 Hi = (H(key)+di) MOD m ,m为表长
di 有三种取法:
线性探测再散列: di = c * i
平方探测再散列:di = 1^2 , -1 ^2,2 ^2,-2 ^2…
随机探测再散列(双探测再散列):di是一组伪随机数列
简单来说就是,既然位置被占了,那就另外再找个位置,怎么找其他的位置呢?这里其实也有很多的实现,我们说个最基本的就是既然当前位置被占用了,我们就看看该位置的后一个位置是否可用,也就是1的位置被占用了,我们就看看2的位置,如果没有被占用,那就放到这里呗,当然,也有可能2的位置也被占用了,那咱就继续往下找,看看3的位置,一次类推,直到找到空位置
3.2 链地址法
存储数据后面加一个指针,指向后面冲突的数据
比如:

简单来说,Entry还额外的保存了一个next指针,这个指针指向数组外的另外一个位置,将李四安排在这里,然后张三那个Entry中的next指针就指向李四的这个位置,也就是保存的这个位置的内存地址,如果还有冲突,那就把又冲突的那个Entry放在一个新位置上,然后李四的Entry中的next指向它,这样就形成了一个链表。

3.3 再哈希法
Hi = RHi(key) i = 1,2,…,k RHi均是不同的哈希函数,意思为:当繁盛冲突时,使用不同的哈希函数计算地址,直到不冲突为止。这种方法不易产生堆积,但是耗费时间
3.4 公共溢出区法
即设立两个表:基础表和溢出表。将所有关键字通过哈希函数计算出相应的地址。然后将未发生冲突的关键字放入相应的基础表中,一旦发生冲突,就将其依次放入溢出表中即可。
在查找时,先用给定值通过哈希函数计算出相应的散列地址后,首先与基本表的相应位置进行比较,如果不相等,再到溢出表中顺序查找。
此种方法适用于数据和冲突较少的情况
4.扩容
增长因子,也叫作负载因子,简单点说就是已经被占的位置与总位置的一个百分比。
比如负载因子是0.7时,一共十个位置,现在已经占了七个位置,就触发了扩容机制,也就是达到了总位置的百分之七十就需要扩容。
简单来说,扩容就是新创建一个数组是原来的2倍,然后把原数组的所有Entry都重新Hash一遍放到新的数组。
数组扩大了,所以一般哈希函数也会有变化,这里的Hash也就是把之前的数据通过新的哈希函数计算出新的位置来存放
代码的实际需求
看一个实际需求, google 公司的一个上机题:
有一个公司,当有新的员工来报道时,要求将该员工的信息加入(id, 性别, 年龄, 住址…),当输入该员工的 id 时,要求查找到该员工的所有信息
要求:不使用数据库,尽量节省内存,速度越快越好 => 哈希表(散列)
哈希表编程思路:
先根据对象的信息将其散列,得到 hashCode
根据对象的 hashCode 值,找到对应的数组下标,其实就是找到存储对象的链表
在链表中进行相应的增删改查操作
代码实现
Emp 节点
//表示一个雇员
class EmpNode {
publicint id;
public String name;
public EmpNode next; // next 默认为 null
public EmpNode(int id, String name) {
super();
this.id = id;
this.name = name;
}
}
Emp 链表
head 是首指针(指向真正存放数据的节点),不是头指针
//创建EmpLinkedList ,表示链表
class EmpLinkedList {
// 首指针,指向第一个EmpNode,因此我们这个链表的head 是直接指向第一个EmpNode
private EmpNode head; // 默认null
// 添加雇员到链表
// 说明
// 1. 假定,当添加雇员时,id 是自增长,即id的分配总是从小到大
// 因此我们将该雇员直接加入到本链表的最后即可
public void add(EmpNode empNode) {
// 如果是添加第一个雇员
if (head == null) {
head = empNode;
return;
}
// 如果不是第一个雇员,则使用一个辅助的指针,帮助定位到最后
EmpNode curEmp = head;
while (true) {
if (curEmp.next == null) {// 说明到链表最后
break;
}
curEmp = curEmp.next; // 后移
}
// 退出时直接将emp 加入链表
curEmp.next = empNode;
}
// 遍历链表的雇员信息
public void list(int no) {
if (head == null) { // 说明链表为空
System.out.println("第 " + (no + 1) + " 链表为空");
return;
}
System.out.print("第 " + (no + 1) + " 链表的信息为");
EmpNode curEmp = head; // 辅助指针
while (true) {
System.out.printf(" => id=%d name=%s ", curEmp.id, curEmp.name);
if (curEmp.next == null) {// 说明curEmp已经是最后结点
break;
}
curEmp = curEmp.next; // 后移,遍历
}
System.out.println();
}
// 根据id查找雇员
// 如果查找到,就返回Emp, 如果没有找到,就返回null
public EmpNode findEmpById(int id) {
// 判断链表是否为空
if (head == null) {
System.out.println("链表为空");
returnnull;
}
// 辅助指针
EmpNode curEmp = head;
while (true) {
if (curEmp.id == id) {// 找到
break;// 这时curEmp就指向要查找的雇员
}
curEmp = curEmp.next;// 后移
// 退出
if (curEmp == null) {// 说明遍历当前链表没有找到该雇员
break;
}
}
return curEmp;
}
}
Emp 哈希表
//创建HashTab 管理多条链表
class HashTab {
private EmpLinkedList[] empLinkedListArray;
privateint size; // 表示有多少条链表
// 构造器
public HashTab(int size) {
this.size = size;
// 初始化empLinkedListArray
empLinkedListArray = new EmpLinkedList[size];
for (int i = 0; i < size; i++) {
empLinkedListArray[i] = new EmpLinkedList();
}
}
// 添加雇员
public void add(EmpNode empNode) {
// 根据员工的id ,得到该员工应当添加到哪条链表
int empLinkedListNO = hashFun(empNode.id);
// 将emp 添加到对应的链表中
empLinkedListArray[empLinkedListNO].add(empNode);
}
// 遍历所有的链表,遍历hashtab
public void list() {
for (int i = 0; i < size; i++) {
empLinkedListArray[i].list(i);
}
}
// 根据输入的id,查找雇员
public void findEmpById(int id) {
// 使用散列函数确定到哪条链表查找
int empLinkedListNO = hashFun(id);
EmpNode empNode = empLinkedListArray[empLinkedListNO].findEmpById(id);
if (empNode != null) {// 找到
System.out.printf("在第%d条链表中找到 雇员 id = %d\n", (empLinkedListNO + 1), id);
} else {
System.out.println("在哈希表中,没有找到该雇员~");
}
}
// 编写散列函数, 使用一个简单取模法
public int hashFun(int id) {
return id % size;
}
}
代码测试
publicclass HashTabDemo {
public static void main(String[] args) {
// 创建哈希表
HashTab hashTab = new HashTab(7);
// 写一个简单的菜单
String key = "";
Scanner scanner = new Scanner(System.in);
while (true) {
System.out.println("add: 添加雇员");
System.out.println("list: 显示雇员");
System.out.println("find: 查找雇员");
System.out.println("exit: 退出系统");
System.out.println();
key = scanner.next();
switch (key) {
case"add":
System.out.println("输入id");
int id = scanner.nextInt();
System.out.println("输入名字");
String name = scanner.next();
// 创建 雇员
EmpNode empNode = new EmpNode(id, name);
hashTab.add(empNode);
break;
case"list":
hashTab.list();
break;
case"find":
System.out.println("请输入要查找的id");
id = scanner.nextInt();
hashTab.findEmpById(id);
break;
case"exit":
scanner.close();
System.exit(0);
default:
break;
}
}
}
}
程序运行结果
add: 添加雇员
list: 显示雇员
find: 查找雇员
exit: 退出系统
add
输入id
1
输入名字
Heygo
add: 添加雇员
list: 显示雇员
find: 查找雇员
exit: 退出系统
list
第 1 链表为空
第 2 链表的信息为 => id=1 name=Heygo => id=8 name=NiuNiu
第 3 链表的信息为 => id=2 name=Oneby
第 4 链表为空
第 5 链表为空
第 6 链表为空
第 7 链表为空
add: 添加雇员
list: 显示雇员
find: 查找雇员
exit: 退出系统
find
请输入要查找的id
9
在哈希表中,没有找到该雇员~
add: 添加雇员
list: 显示雇员
find: 查找雇员
exit: 退出系统
总结:
哈希表基于数组,类似于key-value的存储形式,关键字值通过哈希函数映射为数组的下标,如果一个关键字哈希化到已占用的数组单元,这种情况称为冲突。用来解决冲突的有两种方法:开放地址法和链地址法。在开发地址法中,把冲突的数据项放在数组的其它位置;在链地址法中,每个单元都包含一个链表,把所有映射到同一数组下标的数据项都插入到这个链表中。
