Java三十二篇：哈希表

2023-03-10 01:31 作者:小刘Java之路 0人读过 | 我要投稿

平安春运

1.概念

哈希表（Hash table，也叫散列表）：

是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字的记录在表中的地址，则称表M为哈希(Hash）表，函数f(key)为哈希(Hash) 函数。

哈希表的本质上上一个数组（元素是Entry）

这里的 id 是个key，哈希表就是根据key值来通过哈希函数计算得到一个值，这个值就是用来确定这个Entry要存放在哈希表中的位置的，实际上这个值就是一个下标值，来确定放在数组的哪个位置上

比如这里的 id 是001，那么经过哈希函数的计算之后得到了1，这个1就是告诉我们应该把这个Entry放到哪个位置，这个1就是数组的确切位置的下标，也就是需要放在数组中下表为1的位置

Hash Table的查询速度非常的快，几乎是O(1)的时间复杂度

hash就是找到一种数据内容和数据存放地址之间的映射关系

散列法：元素特征转变为数组下标的方法

优点：

不论哈希表中有多少数据，查找、插入、删除（有时包括删除）时间接近常量的时间即0(1）的时间级

缺点：

它是基于数组的，数组创建后难于扩展，某些哈希表被基本填满时，性能下降得非常严重，所以程序员必须要清楚表中将要存储多少数据

2.哈希函数的构造方法

2.1 直接定制法（不常用）

取关键字或关键字的某个线性函数值为哈希地址即，Ｈ(key) = key H(key) = a * key + b

优点：简单，均匀，不会产生冲突缺点：需要实现直到关键字的分布情况，适合查找表比较小且连续的情况

2.2 数字分析法

数字分析法用于处理关键字是位数比较多的数字，通过抽取关键字的一部分进行操作，计算哈希存储位置的方法

例：

身份证号是有规律的，现在要存储一个班级学生的身份证号码，假设这个班级的学生都出生在同一个地区，同一年，那么他们的身份证的前面数位都是相同的，那么我们可以截取后面不同的几位存储，假设有5位不同，那么就用这五位代表地址

适用场景：

处理关键字位数比较大的情况，事先知道关键字的分布且关键字的若干位分布均匀

2.3 平方取中法

先对关键字取平方，然后选取中间几位为哈希地址，取的位数由表长决定

例：key=1234 1234^2=1522756 取227作hash地址 key=4321 4321^2=18671041 取671作hash地址

适用场景：不知道关键字的分布，而位数又不是很大的情况

2.4 折叠法

如果数字的位数很多，可以将数字分割为几个部分，取他们的叠加和作为hash地址

例：key=123 456 789 可以存储在61524，取末三位，存在524的位置

适用场景：关键字位数很多，而且关键字每一位上数字分布大致均匀

2.5 除留余数法（用的较多）

H（key）=key MOD p （p<=m m为表长）

例：存储3 6 9，那么p就不能取3 因为 3 MOD 3 == 6 MOD 3 == 9 MOD 3，地址冲突

一般来说，p应为不大于m的质数或是不含20以下的质因子的合数，这样可以减少地址的重复（冲突）

2.6 随机数法

选择一个随机数，取关键字的随机函数值作为他的哈希地址即，f(key) = random (key)

适合场景：关键字的长度不等时。当遇到特殊字符的关键字时，需要将其转换为某种数字

3.哈希冲突及解决方式

哈希冲突图例：

3.1 开放寻址法

H（key）的哈希函数：

H（key1）= H（keyi）

那么 keyi 存储位置 Hi = (H(key)+di) MOD m ，m为表长

di 有三种取法：

线性探测再散列: di = c * i

平方探测再散列：di = 1^2 , -1 ^2,2 ^2,-2 ^2…

随机探测再散列（双探测再散列）：di是一组伪随机数列

简单来说就是，既然位置被占了，那就另外再找个位置，怎么找其他的位置呢？这里其实也有很多的实现，我们说个最基本的就是既然当前位置被占用了，我们就看看该位置的后一个位置是否可用，也就是1的位置被占用了，我们就看看2的位置，如果没有被占用，那就放到这里呗，当然，也有可能2的位置也被占用了，那咱就继续往下找，看看3的位置，一次类推，直到找到空位置

3.2 链地址法

存储数据后面加一个指针，指向后面冲突的数据

比如：

简单来说，Entry还额外的保存了一个next指针，这个指针指向数组外的另外一个位置，将李四安排在这里，然后张三那个Entry中的next指针就指向李四的这个位置，也就是保存的这个位置的内存地址，如果还有冲突，那就把又冲突的那个Entry放在一个新位置上，然后李四的Entry中的next指向它，这样就形成了一个链表。

3.3 再哈希法

Hi = RHi（key） i = 1，2，…，k RHi均是不同的哈希函数，意思为：当繁盛冲突时，使用不同的哈希函数计算地址，直到不冲突为止。这种方法不易产生堆积，但是耗费时间

3.4 公共溢出区法

即设立两个表：基础表和溢出表。将所有关键字通过哈希函数计算出相应的地址。然后将未发生冲突的关键字放入相应的基础表中，一旦发生冲突，就将其依次放入溢出表中即可。

在查找时，先用给定值通过哈希函数计算出相应的散列地址后，首先与基本表的相应位置进行比较，如果不相等，再到溢出表中顺序查找。

此种方法适用于数据和冲突较少的情况

4.扩容

增长因子，也叫作负载因子，简单点说就是已经被占的位置与总位置的一个百分比。

比如负载因子是0.7时，一共十个位置，现在已经占了七个位置，就触发了扩容机制，也就是达到了总位置的百分之七十就需要扩容。

简单来说，扩容就是新创建一个数组是原来的2倍，然后把原数组的所有Entry都重新Hash一遍放到新的数组。

数组扩大了，所以一般哈希函数也会有变化，这里的Hash也就是把之前的数据通过新的哈希函数计算出新的位置来存放

代码的实际需求

看一个实际需求， google 公司的一个上机题:
有一个公司，当有新的员工来报道时,要求将该员工的信息加入(id, 性别, 年龄, 住址…)，当输入该员工的 id 时，要求查找到该员工的所有信息
要求：不使用数据库，尽量节省内存，速度越快越好 => 哈希表(散列)

哈希表编程思路：

先根据对象的信息将其散列，得到 hashCode
根据对象的 hashCode 值，找到对应的数组下标，其实就是找到存储对象的链表

在链表中进行相应的增删改查操作

代码实现

Emp 节点

//表示一个雇员 class EmpNode { publicint id; public String name; public EmpNode next; // next 默认为 null public EmpNode(int id, String name) { super(); this.id = id; this.name = name; } }

Emp 链表

head 是首指针（指向真正存放数据的节点），不是头指针

//创建EmpLinkedList ,表示链表 class EmpLinkedList { // 首指针，指向第一个EmpNode,因此我们这个链表的head 是直接指向第一个EmpNode private EmpNode head; // 默认null // 添加雇员到链表 // 说明 // 1. 假定，当添加雇员时，id 是自增长，即id的分配总是从小到大 // 因此我们将该雇员直接加入到本链表的最后即可 public void add(EmpNode empNode) { // 如果是添加第一个雇员 if (head == null) { head = empNode; return; } // 如果不是第一个雇员，则使用一个辅助的指针，帮助定位到最后 EmpNode curEmp = head; while (true) { if (curEmp.next == null) {// 说明到链表最后 break; } curEmp = curEmp.next; // 后移 } // 退出时直接将emp 加入链表 curEmp.next = empNode; } // 遍历链表的雇员信息 public void list(int no) { if (head == null) { // 说明链表为空 System.out.println("第 " + (no + 1) + " 链表为空"); return; } System.out.print("第 " + (no + 1) + " 链表的信息为"); EmpNode curEmp = head; // 辅助指针 while (true) { System.out.printf(" => id=%d name=%s ", curEmp.id, curEmp.name); if (curEmp.next == null) {// 说明curEmp已经是最后结点 break; } curEmp = curEmp.next; // 后移，遍历 } System.out.println(); } // 根据id查找雇员 // 如果查找到，就返回Emp, 如果没有找到，就返回null public EmpNode findEmpById(int id) { // 判断链表是否为空 if (head == null) { System.out.println("链表为空"); returnnull; } // 辅助指针 EmpNode curEmp = head; while (true) { if (curEmp.id == id) {// 找到 break;// 这时curEmp就指向要查找的雇员 } curEmp = curEmp.next;// 后移 // 退出 if (curEmp == null) {// 说明遍历当前链表没有找到该雇员 break; } } return curEmp; } }

Emp 哈希表

//创建HashTab 管理多条链表 class HashTab { private EmpLinkedList[] empLinkedListArray; privateint size; // 表示有多少条链表 // 构造器 public HashTab(int size) { this.size = size; // 初始化empLinkedListArray empLinkedListArray = new EmpLinkedList[size]; for (int i = 0; i < size; i++) { empLinkedListArray[i] = new EmpLinkedList(); } } // 添加雇员 public void add(EmpNode empNode) { // 根据员工的id ,得到该员工应当添加到哪条链表 int empLinkedListNO = hashFun(empNode.id); // 将emp 添加到对应的链表中 empLinkedListArray[empLinkedListNO].add(empNode); } // 遍历所有的链表,遍历hashtab public void list() { for (int i = 0; i < size; i++) { empLinkedListArray[i].list(i); } } // 根据输入的id,查找雇员 public void findEmpById(int id) { // 使用散列函数确定到哪条链表查找 int empLinkedListNO = hashFun(id); EmpNode empNode = empLinkedListArray[empLinkedListNO].findEmpById(id); if (empNode != null) {// 找到 System.out.printf("在第%d条链表中找到雇员 id = %d\n", (empLinkedListNO + 1), id); } else { System.out.println("在哈希表中，没有找到该雇员~"); } } // 编写散列函数, 使用一个简单取模法 public int hashFun(int id) { return id % size; } }

代码测试

publicclass HashTabDemo { public static void main(String[] args) { // 创建哈希表 HashTab hashTab = new HashTab(7); // 写一个简单的菜单 String key = ""; Scanner scanner = new Scanner(System.in); while (true) { System.out.println("add: 添加雇员"); System.out.println("list: 显示雇员"); System.out.println("find: 查找雇员"); System.out.println("exit: 退出系统"); System.out.println(); key = scanner.next(); switch (key) { case"add": System.out.println("输入id"); int id = scanner.nextInt(); System.out.println("输入名字"); String name = scanner.next(); // 创建雇员 EmpNode empNode = new EmpNode(id, name); hashTab.add(empNode); break; case"list": hashTab.list(); break; case"find": System.out.println("请输入要查找的id"); id = scanner.nextInt(); hashTab.findEmpById(id); break; case"exit": scanner.close(); System.exit(0); default: break; } } } }

程序运行结果

add: 添加雇员 list: 显示雇员 find: 查找雇员 exit: 退出系统 add 输入id 1 输入名字 Heygo add: 添加雇员 list: 显示雇员 find: 查找雇员 exit: 退出系统 list 第 1 链表为空第 2 链表的信息为 => id=1 name=Heygo => id=8 name=NiuNiu 第 3 链表的信息为 => id=2 name=Oneby 第 4 链表为空第 5 链表为空第 6 链表为空第 7 链表为空 add: 添加雇员 list: 显示雇员 find: 查找雇员 exit: 退出系统 find 请输入要查找的id 9 在哈希表中，没有找到该雇员~ add: 添加雇员 list: 显示雇员 find: 查找雇员 exit: 退出系统

总结：

哈希表基于数组，类似于key-value的存储形式，关键字值通过哈希函数映射为数组的下标，如果一个关键字哈希化到已占用的数组单元，这种情况称为冲突。用来解决冲突的有两种方法：开放地址法和链地址法。在开发地址法中，把冲突的数据项放在数组的其它位置；在链地址法中，每个单元都包含一个链表，把所有映射到同一数组下标的数据项都插入到这个链表中。

标签：