欢迎光临散文网 会员登陆 & 注册

Spark中Job 调度流程是怎么样的?

2023-02-28 17:08 作者:ingemar-  | 我要投稿

Spark Application应用的用户代码都是基于RDD的一系列计算操作,实际运行时,这些计算操作是Lazy执行的,并不是所有的RDD操作都会触发Spark往Cluster上提交实际作业,基本上只有一些需要返回数据或者向外部输出的操作才会触发实际计算工作(Action算子),其它的变换操作基本上只是生成对应的RDD记录依赖关系(Transformation算子)。

当启动Spark Application的时候,运行MAIN函数,首先创建SparkContext对象(构建DAGScheduler和TaskScheduler)。

第一点、DAGScheduler实例对象

将每个Job的DAG图划分为Stage,依据RDD之间依赖为宽依赖(产生Shuffle)

第二点、TaskScheduler实例对象

调度每个Stage中所有Task:TaskSet,发送到Executor上执行

当RDD调用Action函数(比如count、saveTextFile或foreachPartition)时,触发一个Job执行,调度中流程如下图所示:

Spark RDD通过其Transactions操作,形成了RDD血缘关系图,即DAG,最后通过Action的调用,触发Job并调度执行。

1)、DAGScheduler负责Stage级的调度,主要是将DAG切分成若干Stages,并将每个Stage打包成TaskSet交给TaskScheduler调度。

2)、TaskScheduler负责Task级的调度,将DAGScheduler给过来的TaskSet按照指定的调度策略分发到Executor上执行,调度过程中SchedulerBackend负责提供可用资源,其中SchedulerBackend有多种实现,分别对接不同的资源管理系统。

Spark的任务调度总体来说分两路进行,一路是Stage级的调度,一路是Task级的调度。


一个Spark应用程序包括Job、Stage及Task:

第一:Job是以Action方法为界,遇到一个Action方法则触发一个Job;

第二:Stage是Job的子集,以RDD宽依赖(即Shuffle)为界,遇到Shuffle做一次划分;

第三:Task是Stage的子集,以并行度(分区数)来衡量,分区数是多少,则有多少个task。


Spark中Job 调度流程是怎么样的?的评论 (共 条)

分享到微博请遵守国家法律