多易 多易教育-spark视频教程
Shuffle
有些运算需要将各节点上的同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则汇集到一起的过程称为 Shuffle。后面会有单独的文章讲 Shuffle。
NarrowDependency
窄依赖,即子RDD依赖于父RDD中固定的Partition。NarrowDependency 分为 OneToOneDependency 和 RangeDependency两种。
ShuffleDependency
宽依赖,shuffle 依赖,即子 RDD 对父 RDD 中的所有 Partition 都有依赖。