Spark教程
作者: 时海 风自在
算子

Spark大致分为Transformation和Action两种类型的算子。

1、Transformation 类型的算子是一种延迟加载的操作,即:将一个RDD转换成另一个RDD并不会马上执行,需要等到Action算子才会真正触发任务的提交。

Transformation算子又可以分为Value类型的算子和Key-Value类型的算子,相应的处理的数据项分别是Value类型的数据和Key-Value类型的数据。

常见的Transformation算子有:map、filter、flatMap、sample、distinct 等

2、Action算子会触发整个作业的提交。常见的Action算子有:collect、count、reduce、top等

标签: 算子、transformation、action、类型、rdd
一个创业中的苦逼程序员
  • 回复
隐藏