Spark整体流程: 1、Client提交应用。 2、Master找到一个Worker启动Driver 3、Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph 4、再由DAGSchedule将RDD Graph转化为Stage的有向无环图提交给TaskSchedule。 5、再由TaskSchedule提交任务给Executor执行。 6、其它组件协同工作,确保整个应用顺利执行。
Spark on Yarn流程:
1、基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager。 2、ResourceManager在某一NodeManager汇报时把AppMaster分配给NodeManager。 3、NodeManager启动SparkAppMaster。 4、SparkAppMastere启动后初始化然后向ResourceManager申请资源。 5、申请到资源后,SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor。 6、SparkExecutor向SparkAppMaster汇报并完成相应的任务。 7、SparkClient会通过AppMaster获取作业运行状态。参考:Spark中文指南(入门篇)-Spark编程模型(一)
下一题:Spark考查的知识点
标签: nodemanager、sparkappmaster、spark、resourcemanager、yarn
笔试题
刷题
简历模板
AI算法
大数据
内推
内推: