Spark执行的一般流程?Spark on Yarn的执行流程?
Spark整体流程:
1、Client提交应用。  
2、Master找到一个Worker启动Driver  
3、Driver向Master或者资源管理器申请资源,之后将应用转化为RDD Graph  
4、再由DAGSchedule将RDD Graph转化为Stage的有向无环图提交给TaskSchedule。  
5、再由TaskSchedule提交任务给Executor执行。  
6、其它组件协同工作,确保整个应用顺利执行。  

Spark on Yarn流程:

1、基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager。  
2、ResourceManager在某一NodeManager汇报时把AppMaster分配给NodeManager。  
3、NodeManager启动SparkAppMaster。
4、SparkAppMastere启动后初始化然后向ResourceManager申请资源。  
5、申请到资源后,SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor。  
6、SparkExecutor向SparkAppMaster汇报并完成相应的任务。  
7、SparkClient会通过AppMaster获取作业运行状态。  
参考:Spark中文指南(入门篇)-Spark编程模型(一)


更多精选文章
标签: nodemanager、sparkappmaster、spark、resourcemanager、yarn
一个创业中的苦逼程序员
笔试题


刷题


简历模板


AI算法


大数据


内推


推荐阅读:
阿里巴巴笔试面试大全
腾讯笔试面试大全
百度笔试面试大全
今日头条笔试面试大全
网易笔试面试大全
Google笔试面试大全
更多笔试面试大全
隐藏