多易 Spark内核原理与源码分析

2023-02-19 15:55 作者:nmgbtyxl 0人读过 | 我要投稿

Stage

Job 分成的阶段，一个 Spark 作业常被分为一个或者多个 Stage。 Stage 基于 RDD 的 DAG 依赖关系图进行划分。调度器从 DAG 图末端出发，遇到 ShuffleDependecy 就断开。遇到 NarrowDependecy 就加入到当前 Stage。

数据分区，即一个 RDD 可以被划分成多少个分区

有些运算需要将各节点上的同一类数据汇集到某一节点进行计算，把这些分布在不同节点的数据按照一定的规则汇集到一起的过程称为 Shuffle。后面会有单独的文章讲 Shuffle。

标签：