Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
我们知hive将 SQL转换成MapReduce,然后提交到集群上执行的,大大简化了编写MapReduce程序的复杂性,类似hive, Spark SQL将SQL转换成RDD,然后提交到集群上执行,执行效率非常快。
浙公网安备 33010602006230号
浙ICP备14015892号