Spark常见面试题

1、scala 语言有什么特点,相比java有什么优点?

2、什么是Scala的伴生类和伴生对象?

3、spark有什么特点,处理大数据有什么优势?

4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?

5、Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?

6、Mapreduce和Spark有什么区别与联系?

7、简单说一下hadoop和spark的shuffle相同和差异?

8、Spark为什么比mapreduce快?

9、简要描述Spark分布式集群搭建的步骤?

10、spark的有几种部署模式,每种模式特点?

11、spark集群运算的模式有哪些?

12、Spark有哪些算子,列举几个你熟悉的?

13、spark中的RDD是什么,有哪些特性?

14、谈谈spark中的宽窄依赖?

15、cache和pesist有什么区别?

16、spark rdd 如何区分宽依赖和窄依赖?

17、RDD中reduceBykey与groupByKey哪个性能好,为什么?

18、spark streming在实时处理时会发生什么故障,如何停止,解决?

19、spark streaming 读取kafka数据的两种方式?

20、spark 如何防止内存溢出?

21、如何解决spark中的数据倾斜问题?

22、spark中的数据倾斜的现象、原因、后果?

23、Spark有哪些优化方法?

24、spark中如何划分stage?

25、spark有哪些组件? ?

26、Spark中Work的主要工作是什么?

27、Spark driver的功能是什么?

28、如何配置spark master的HA?

29、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

30、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?

31、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

32、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?

33、spark-submit的时候如何引入外部jar包?

34、spark面试需要储备哪些知识?

35、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?

猜你感兴趣的圈子:
大数据笔试面试圈
分享本文