RDD与DataFrame的区别

1、DataFrame 除了数据以外,还记录数据的结构信息,即schema

2、RDD倾向于创建大量临时对象,对GC造成压力,Spark SQL 会复用对象

3、Spark SQL 会做优化,如:谓词下推、列裁剪

标签: dataframe、rdd、谓词、下推、裁剪、面试
  • 回复
隐藏