spark streaming 读取kafka数据的两种方式-k6k4.com

spark streaming 读取kafka数据的两种方式

Receiver-base：
使用Kafka的高层次Consumer API来实现。receiver从Kafka中获取的数据都存储在Spark Executor的内存中，然后Spark Streaming启动的job会去处理那些数据。然而，在默认的配置下，这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制，让数据零丢失，就必须启用Spark Streaming的预写日志机制（Write Ahead Log，WAL）。该机制会同步地将接收到的Kafka数据写入分布式文件系统（比如HDFS）上的预写日志中。所以，即使底层节点出现了失败，也可以使用预写日志中的数据进行恢复。
Direct：
Spark1.3中引入Direct方式，用来替代掉使用Receiver接收数据，这种方式会周期性地查询Kafka，获得每个topic+partition的最新的offset，从而定义每个batch的offset的范围。当处理数据的job启动时，就会使用Kafka的简单consumer api来获取Kafka指定offset范围的数据。

更多精选文章

上一题：RDD、DataFrame和DataSe

下一题：spark streming在实时处理时

标签： kafka、预写、receiver、streaming、offset

一个创业中的苦逼程序员

笔试题

刷题

简历模板

AI算法

大数据

内推

内推：

数据研发工程师 / 个推