CMU 15-445/645-笔记-14-Query Plan 和优化-part1

2023-01-01 14:27 作者:dengluzhanghao 0人读过 | 我要投稿

## 课程前沿

### Query 优化

第一个查询优化器的实现可以追溯到 1970 年代，也就是 IBM 的 System R

当时 Ted Codd 写了第一篇关于关系模型的 paper，然后有俩波人，一波是 IBM ，另一波是 UC Berkeley 的，构建出了史上最著名的关系型数据库系统，UC Berkeley 那波人开发出来的叫 Ingres(Postgres 是 Ingres 的后续产品)，IBM 那群人开发出来的叫 System R

Ted Codd 在第一次提出关系模型时，并没有提出相关的类似 SQL 的语言，SQL 是后来才出现的

UC Berkeley 那波人使用的是一种叫 Quel 的语言，看起来像 SQL，但语法不一样

查询优化有 2 个方面可以进行讨论

1. 使用静态规则/条件触发(比如在 SQL 中定义了 `1 = 0` 这样的玩意儿，那就可以通过一条规则将它去除掉，以及，在不用直接看数据库表的情况下，可以通过数据库的 system catalog 文件这种类似的规则就可以知道这个数据库里面的 tuple 实际包含的头信息)

2. Cost-based Search(枚举 SQL 中所有可能的查询方案，通过某种方式去掉那些多余、愚蠢、耗费成本的方案，至于如何判断这个成本，就是用某种成本模型来做预估)

一个查询优化的 Pipeline 长这样

1. SQL Rewriter 通过某种转换规则来对 SQL 进行重写(比如用一些额外的信息对数据库里面某些表进行标记，表示可以在这个节点或者磁盘上找到这些表)，这个是可选的

2. 再通过一个 SQL Parser，将 SQL 解析成 ast

3. 将 ast 传入 Binder 中，Binder 负责将 SQL 查询中引用的那些命名对象转换成某种内部标识符，而它是通过 System Catalog 来做到这一点的(比如 SQL 为 `SELECT * FROM foo`，如果不想让查询计划中的剩下部分对 foo 表进行处理，那就需要在 System Catalog 里面去查有没有一个叫做 foo 的表，如果存在，那么就从 System Catalog 里面拿到 foo 表对应的内部标识符，使得后面能够找到这个 foo 表；如果 foo 表不存在，System Catalog 就会直接表明 foo 表不存在，并抛出一个错误)

4. Binder 要输出 Logical Plan(Logical Plan 指的是，从一个高级层面来讲，这个查询想干的事情是什么，比如要查表数据，或者对表进行 Join 操作，但并不会表明在实际中该怎么去执行这个查询，具体如何执行这个查询是 Physical Plan 所需要干的事情)，然后传入一个 Tree Rewriter (这个也是可选的)。然后为了对 ast 进行重写，需要从 System Catalog 处拿到 Schema Info，表的一些属性都在这个里面

5. Tree Rewriter 会输出和 Binder 输出的一样的 Logical Plan，然后将 Logical Plan 传入查询优化器。然后在这个查询优化器中，使用 Cost Model 来找出最佳查询方案。查询优化器会使用 System Catalog 提供的 Schema Info 以及 Cost Model 来对这些方案进行成本预估

6. 成本预估完成后，查询优化器就可以生成一个 Physical Plan(Physical Plan 就是数据库系统实际执行查询语句的方式)

### Logical Plan 和 Physical Plan